Technologies Big Data

Description

Le cours présente les technologies modernes pour le traitement de données massives. Il se concentre sur les principes du traitement de données distribuées, et s'appuie sur l’utilisation de librairies de calcul dans le cloud.

Syllabus

  1. Introduction au Big Data : limites des systèmes classiques de traitement des données
  2. Traitement (centralisé) de jeux de données de moyenne taille
    • numpy et pandas
  3. Introduction au traitement des données distribuées
    • Hadoop et Map Reduce
  4. Traitement distribué de données massives en mémoire centrale : Spark
  5. Modèles de données distribuées de Spark : RDDs, Dataframes
  6. Spark SQL
  7. Structure interne et optimisation de Spark

Pré-requis

Connaissance des langages SQL et Python. Avoir suivi au moins un cours de bases de données relationnelles.