En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour vous proposer des services et offres adaptés à vos centres d’intérêts.
Pour en savoir plus et paramétrer les cookies, suivez ce lien
Développeur de compétences
  •  
  •  
  •  

Spark, introduction


  • Objectifs
  • Profils
  • Pré-requis
  • Moyens pédagogiques
  • Certificat / Attestation
  • Comprendre le principe de fonctionnement de Spark
  • Apprendre à utiliser l'API PySpark pour interagir avec Spark en Python
  • Apprendre à utiliser les méthodes de Machine Learning avec la librairie MLlib de Spark
  • Apprendre à traiter les flux de données avec Spark Streaming
  • Apprendre à manipuler les données avec Spark SQL
Trouvez votre prochaine formation

Programme

  • 2 Jours, 14h
  • 1775 HT *
    Introduction à Hadoop
    • L’ère du Big Data
    • Architecture et composants de la plateforme Hadoop
    • HDFS
    • NameNode / DataNode / RessourceManager
    • Paradigme MapReduce et YARN

    Introduction à Spark
    • Qu’est-ce que Spark ?
    • Spark vs MapReduce
    • Fonctionnement : RDD, DataFrames, Data Sets
    • Comment interagir avec Spark
    • PySpark : programmer avec Spark en Python

    Manipulation des données
    • Formats basiques (fichiers textes, JSON, CSV, SequencesFiles, fichiers compressés)
    • Interagir avec des sources de données externes : connecteurs Hive, JDC, Hbase, ElasticSearch, …

    Spark Streaming
    • Introduction à Spark Streaming
    • La notion de « DStream »
    • Principales sources de données
    • Utilisation de l’API
    • Manipulation des données

    Spark SQL
    • Initiation à Spark SQL
    • Création de DataFrames
    • Manipulation des DataFrames (opérations basiques,  agrégations & Groupby, Missing Data)
    • Chargement et stockage de données (avec Hive, JSON, etc…)

    Spark ML avec MLlib
    • Modélisation Statistique & Apprentissage
    • Types de données (Vector / LabeledPoint / Model)
    • Préparation des données
    • Utilisation d’algorithme de MLlib (k-means / Régression logistique / arbre de discrimination / forêt aléatoire)
    • Exemple de création d’un modèle et de son évaluation avec Spark MLlib sur un jeu de données

    GraphX et GraphFrames
    • Présentation de GraphX
    • Principe de création des graphes
    • API GraphX
    • Présentation GraphFrames
    • GraphX vs GraphFrames

* La durée et le prix de la formation sont donnés à titre indicatif pour une inscription en inter-entreprises. Toute demande intra-entreprise fait systématiquement l’objet d’un devis sur-mesure devant être approuvé pour acceptation.