En los últimos años ha crecido enormemente la demanda de profesionales en las áreas de Big Data y Data Science. Las ofertas de empleo reflejan el interés que tienen empresas e instituciones en encontrar especialistas en el uso de tecnologías basadas en clusters de computadores.

Este curso permite adquirir los conceptos esenciales y conocer las herramientas de programación más utilizadas y demandadas en la actualidad para el trabajo con datos: los clusters basados en Hadoop y la programación paralela con Spark, utilizando el lenguaje de programación Python.

OBJETIVOS

  • Comprender el marco conceptual y los retos del Big Data
  • Grandes volúmenes de datos: Clusters y programación paralela
  • Apache Hadoop, Apache Spark y ecosistema asociado
  • Utilización del sistema de ficheros distribuido Hadoop HDFS
  • Parámetros de optimización de tareas en sistemas Hadoop HDFS
  • Esquema de programación MapReduce (Hadoop MapReduce)
  • Programación en Python para Apache Spark
  • Ajustes para mejorar la eficiencia de tareas Spark
  • Módulos de Spark para dominios particulares: SQL, MLlib, ML, Streaming

CARACTERÍSTICAS

Profesorado experto
Grupos reducidos (~20 alumnos)
24 horas presenciales
Software Libre
Campus virtual Moodle
Casos prácticos
Clases en laboratorio
Evaluación por trabajos
Matrícula 240€

CUÁNDO

Del 1 al 11 de julio de 2019.
Horario por confirmar

DÓNDE

Facultad de Estudios Estadísticos.
Ciudad Universitaria.

TÍTULO

Certificado Académico UCM y reconocimiento de 1,5 créditos optativos.

BECAS

1 beca total.
Se valorarán el expediente académico y los ingresos.

Ficha del curso

Aquí tienes la información ampliada en pdf

Contacto

Departamento de Sistemas Informáticos y Computación UCM
   Luis Fernando Llana Díaz
   Carlos Gregorio Rodríguez