Curso en Big Analytics
febrero-abril 2023
Con la colaboración de:
¿Qué es el Big Data?
El Big Data Analytics es un ecosistema de tecnologías que permiten recopilar, almacenar y explotar grandes volúmenes de datos que se generan a distinta velocidad y tienen distinta variedad de información, tanto estructurada como desestructurada (blogs, redes sociales, vídeos, imágenes…).
Todo ello permite tener una plataforma muy flexible que sirve como un repositorio unificado de información que reduce costes y sirve como base para dar soluciones de negocio a un amplio abanico de requerimientos (analítica, correlación de eventos, explotación, transformación, BI, cliente 360) que permite explotar Tb de información con miles de operaciones por segundo y en tiempo real.
Los Data Scientist son los expertos en analítica avanzada que dan valor a los datos. A través de su labor las empresas pueden plantearse nuevos retos, predecir situaciones futuras, apostar por las mejores alternativas, proporcionar un mejor servicio a los clientes y maximizar beneficios.
¿Qué te ofrecemos?
Un curso de postgrado en Big Data Analytics que combina formación teórica y práctica impartida por profesores del UC3M-Santander Instituto de Big Data (IBiDat) y profesionales del equipo de Deloitte Digital.
Nuestro programa en Big Data Analytics es un curso aplicado en el que se trabajará en base a casos prácticos reales. Los estudiantes tendrán una visión completa de lo que es un proyecto en el área de Big Data. Pasarán por todas las fases del proyecto: desde la arquitectura de dato, hasta su almacenamiento, manejo y análisis.
Para ello se aplicarán las técnicas estadísticas y computacionales más modernas. Estas ayudan a la identificación de patrones y a la extracción de conocimiento valioso relativo al problema en cuestión.
Se realizarán prácticas con las principales tecnologías Open Source del Universo del Big Data, como Hadoop, HDFS, Spark, Flink, Kafka, Flume, Sqoop, Hive y se aprenderá a utilizar diversos lenguajes de programación como Scala, Python o R.
Nuestro programa formativo
Introducción general al Big Data Analytics y su necesidad.
- Introducción a R.
- Introducción a los paquetes de R que se utilizarán en otras sesiones.
- Ejemplos prácticos.
Conceptos básicos e introducción a la programación en Python, cubriendo las librerías más empleadas en el tratamiento de datos y en el desarrollo de modelos de machine learning (numpy, pandas, scikit-learn, etc.). En las prácticas se utilizarán Jupyter Notebooks para documentar el código y facilitar la ejecución interactiva durante la sesión.
- Soluciones Big Data en el Cloud. Diseño de sistemas inteligentes.
- Tipos de problemas que nos encontramos en data science y como abordarlos.
- Introducción al aprendizaje automático.
- Introducción.
- Tratamiento, transformación y limpieza de datos.
- Caso práctico 2 y 3.
- Obtención de datos, inferencia de datos y modelado de datos.
- Diseño de las necesidades del sistema.
- Casos prácticos 4 y 5.
- Presentación de las técnicas más básicas: histogramas, scatter plots…
- Técnicas de visualización más avanzadas ilustradas con problemas reales.
- Detección de valores atípicos.
- Correlaciones o indicadores de discriminación para entender cuáles son las variables más predictivas/discriminativas.
- Introducción a proyecciones que revelan estructuras en los datos. En particular, el análisis de componentes principales.
Introducción a las series temporales y su necesidad en Big data.
Introducción al Machine Learning y tipos de problemas: supervisado vs no supervisado vs semi-supervisado, regresión vs clasificación… Algoritmos supervisados sencillos: métodos lineales (discriminante lineal), cuadráticos y no paramétricos (vecinos próximos). Aspectos importantes en el proceso de clasificación: Selección de características y reducción de la dimensión.elección del clasificador, problema de sobreajuste, validación.
Breve introducción a la optimización. Introducción a las máquinas de vectores soporte (SVM): motivación, optimización, kernel trick, ajuste de parámetros. Introducción a los algoritmos genéticos: cómo buscar en el espacio de soluciones, heurísticas, motivación de los algoritmos genéticos, metodología, tipos. En todas las sesiones se motivarán los contenidos con ejemplos ilustrativos y reales en la medida de lo posible. Se harán prácticas de los distintos temas con R y se usará como hilo conductor el problema general de todo el curso.
Introducción de las principales técnicas de regresión: Lineal, Splines, Quantiles, Lasso y regressión logística. Técnicas avanzadas de regresión, diseño de experimentos para mitigar problemas de causalidad: Diferencias en diferencias, Variables instrumentales y regresion por discontinuidad.
- Cluster Analysis: k-means (color quantization, pattern recognition examples ), k-medoids ( face recognition examples ). Association Rules: The apriori algorithm (examples on Association rules sequences. The cspade algorithm (examples on tag recommendation, market basket, etc) market basket analysis), Association rules sequences. The cspade algorithm (examples on tag recommendation, market basket, etc).
- Cluster Analysis/ Hierarchical clustering : Agnes – Diana, Types of linkages . Examples on movie suggestion engines, cell phone towers placement, etc.
- Introducción a las funcionalidades básicas de Spark. Partiendo de la definición y manejo de RDDs hasta la manipulación de DataFrames y DataSets, pasando por las transformaciones y acciones más comunes en el procesamiento de datos distribuidos sobre Spark. Para ello se pueden utilizar distintas APIs y durante el curso se utilizará PySpark (de ahí la introducción de la sesión anterior), empleando además distintos formatos y fuentes de datos en el origen. Siguiendo un enfoque práctico, se aplicarán estos conceptos a ejemplos con datos reales de manera interactiva.
- Continuación de la sesión anterior, incorporando la librería de modelado MLlib de Spark. Se explicará cómo construir los algoritmos descritos en la primera sesión, esta vez en formato distribuido. A su vez se hará un repaso de todo aquello necesario en la construcción de features y de un pipeline completo de machine learning con PySpark.
- Introducción a las redes neuronales básicas y a las redes profundas (deep learning) utilizando «Tensor Flow».
- Técnicas de clasificación: Combinación de clasificadores
Introducción a los modelos gráficos probabilísticos. Caracterización. Redes Bayesianas. Tablas de probabilidad condicionada. Inferencia Ejemplos Aprendiendo modelos gráficos probabilísticos e inferencia con ellos.
Utilización de combinación de clasificadores estudiados en sesiones anteriores para mejorar resultados y tasas de correcta clasificación y predicción.
Fórmate con los mejores profesores
Rosa Elvira Lillo
Directora del UC3M-Santander Instituto de Big Data (IBiDat)
Lara Quijano Sánchez
PhD Ingeniería informática | Miembro IBiDat
Harold Antonio Hernández
Investigador en IBiDat | Profesor de estadística UC3M
Álvaro Méndez Civieta
Investigador en IBiDat | Profesor de estadística UC3M
Rafael Hernández Murcia
Data scientist en BBVA Data & Analytics
Félix Contreras Herrero
Director Analytics & Cognitive, Deloitte, España
Iván Blanco Sánchez
Profesor de Finanzas en CUNEF | Gestor del fondo NOAX GLOBAL
Alejandro Casado Díez
Analyst | Consulting – Analytics Deloitte
Belén Pulido Bravo
Investigadora en IBiDat
Matrícula & becas
El curso está dirigido preferentemente a estudiantes de último curso o recién graduados de las siguientes titulaciones:
- Ingeniería Informática, software, computadores o similar
- Ingeniería Telecomunicaciones, telemática o similar
- Matemáticas
- Física
- Estadística
- Doble grado en Ingeniería Informática y ADE
Requisitos de inscripción: Las personas interesadas deben cumplimentar el formulario de inscripción y adjuntar su CV, expediente académico y una carta de motivación. El plazo para la recepción de solicitudes de admisión permanecerá abierto hasta completar matrícula.
Otros requisitos: los interesados en realizar el curso deben disponer de un ordenador portátil con las siguientes características mínimas:
- Procesador: i5 con 4 núcleos y 2,2 Ghz por núcleo
- Memoria RAM: 8 GB
- Tarjeta gráfica dedicada
Coste: La matrícula del curso tiene un coste de 2.900 € y podrá ser abonada en tres plazos. Los Alumni y alumnos UC3M disfrutarán de un descuento de 200€ que se aplicará en el último pago.
Es un curso muy completo con una alta densidad de contenidos. Aunque no es un requisito, se aprovecha mejor si tienes algún conocimiento previo de minería de datos y programación orientada a objetos. Se utilizan R y Python, aunque mucho más Python. Me parece una opción muy recomendable para introducirte en una de las profesiones más demandadas en el mercado.
El curso ha supuesto para mí un reto personal y académico. Su enfoque práctico basado en la experiencia de los profesores hacen que las clases sean atractivas e interesantes ya que se ve la utilidad real de aquello que están explicando. Además te abre puertas al mundo laboral y te pone en contacto con gente con intereses parecidos a los tuyos. Lo recomiendo 100%.

El curso es una formación buenísima para iniciarte en este mundo siempre que tengas un background de estadística o ingeniería, o hayas estudiado algo por tu cuenta. El postgrado te abre las puertas a muchas empresas que necesitan este perfil y por supuesto a Deloitte Digital. Lo recomendaría siempre.

El curso de Big Analytics me ayudó en obtener una oportunidad laboral en el BBVA, donde aprendí mucho acerca de las finanzas y su aplicación en un entorno real como es la banca. También me ha ayudado a aprender y realizar sucesivos cursos de programación en R, donde ya he adquirido un cierto nivel de competencia.

Salidas profesionales
Al finalizar el curso los alumnos contarán con el potencial suficiente para cubrir perfiles especializados, siendo capaces de extraer conocimientos valiosos a partir de grandes volúmenes de datos, guiando las decisiones de negocio de diferentes “Data Driven Companies”.
Todo ello dominando el End to End del proyecto, partiendo de los datos en crudo (raw data), transformándolos en información explotable creando el Smart Data, y realizando analítica avanzada para crear valor a la compañía.
Los estudiantes que sean seleccionados por Deloitte realizarán prácticas remuneradas en la firma.
Empresas colaboradoras:








