IIND4417 - Aprende a descubrir patrones y extraer conocimiento de datos masivos
Semana | Tema | Actividades |
---|---|---|
1 | Introducción a herramientas de minería de datos | Presentación del curso, introducción a Orange Data Mining, instalación y primeros pasos |
2 | Requerimientos mínimos, ventajas y desventajas | Comparativa de herramientas, exploración de interfaces, taller práctico de familiarización |
3 | Acceso y ensayo de los datos: Creación de proyectos | Definición de fuentes de datos, importación de datos en Orange, visualización básica |
4 | Validación, limpieza e integración de datos | Técnicas de limpieza, manejo de valores faltantes, transformación de variables |
5 | Reducción de datos y primeras exploraciones | PCA, selección de atributos, visualización multidimensional en Orange |
6 | Investigación de patrones: Análisis de clúster | K-means, clustering jerárquico, evaluación de agrupaciones |
7 | Segmentación no supervisada de mercados | Aplicaciones comerciales, caso práctico de segmentación de clientes |
8 | Análisis de asociaciones y secuencias de compras | Reglas de asociación, análisis de canasta de mercado, patrones secuenciales |
9 | Modelación predictiva: Árboles de decisión | Estructura de árboles, creación y análisis de árboles en Orange |
10 | Podado y optimización de árboles de decisión | Técnicas de podado, prevención de sobreajuste, crecimiento autónomo |
11 | Modelación predictiva: Análisis de regresión | Regresión lineal, selección de variables, optimización y validación de supuestos |
12 | Regresiones avanzadas y variables categóricas | Regresiones polinomiales, tratamiento no lineal, manejo de variables categóricas |
13 | Modelación flexible: Redes neuronales | Fundamentos de redes neuronales, entrenamiento y validación de modelos en Orange |
14 | Evaluación del modelo: Estadígrafos y gráficos | Métricas de evaluación, matrices de confusión, curvas ROC, ajuste para muestras separadas |
15 | Implementación de modelos | Calificación de bases de datos, módulos de clasificación, evaluación de desempeño |
16 | Tópicos especiales y presentación de proyectos | Ensamblado de modelos, selección de variables, presentación de proyectos finales |
Última versión del software Orange Data Mining para Windows, Mac y Linux
Dataset clásico para ejercicios de clasificación con información sobre ingresos
Conjunto de datos para ejercicios de árboles de decisión y clasificación médica
Datos para prácticas de reglas de asociación y patrones de compra
Datos para ejercicios de clustering y segmentación de mercados
Documento con ejemplos y funciones DAX aplicadas al análisis de datos
Guía completa con ejercicios paso a paso para cada tema del curso
Scripts de Python para complementar las funcionalidades de Orange