Bases de données, BI et Reporting

Hadoop - Architecture et administration de clusters

3 jours - 21 heures

Objectifs

Connaitre les différents composants d'un cluster Hadoop et savoir dimensionner une solution répondant aux besoins des services. Savoir mettre en oeuvre les différentes façons de déployer Hadoop, et opérer les outils d'administration et de surveillance pour maintenir un cluster en condition opérationnelle.

Participants

Architectes et urbanistes SI, administrateurs systèmes. Toute personne souhaitant mettre en œuvre un système Hadoop.

Prérequis

Connaissance systèmes Unix/Linux.

Pédagogie

La pédagogie est basée sur le principe de la dynamique de groupe avec alternance d'apports théoriques, de phases de réflexion collectives et individuelles, d'exercices, d'études de cas et de mises en situations observées. Formation / Action participative et interactive : les participants sont acteurs de leur formation notamment lors des mises en situation car ils s'appuient sur leurs connaissances, les expériences et mettront en œuvre les nouveaux outils présentés au cours de la session.

Spécificités pédagogiques de la session à distance

Formation dispensée en visio-formation avec un séquencement adapté. Configuration et accès à notre outil de visio-formation. Accès à la bibliothèque pédagogique virtuelle durant la formation afin de partager les exercices, contrôler les résultats obtenus et déployer l’ensemble du séquencement pédagogique. La durée exacte des modules définis ci-après est susceptible de varier en fonction de la vitesse d’appropriation des concepts enseignés de la part du stagiaire.

Remarques

Certification

Profil de l'intervenant

Consultant-formateur expert. Suivi des compétences techniques et pédagogiques assuré par nos services.

Moyens techniques

Encadrement complet des stagiaires durant la formation. Espace d’accueil, configuration technique des salles et matériel pédagogique dédié pour les formations en centre. Remise d’une documentation pédagogique papier ou numérique à échéance de la formation.

Moyens techniques relatifs aux sessions à distance

Encadrement complet des stagiaires durant la formation. Accès à notre service technique durant l’animation pour toute limite rencontrée. Accès à l’espace de conversation instantané durant la session pour interagir avec le formateur et les participants. Transmission d’un email de contact pour réaction privée durant la session. Remise d’une documentation pédagogique papier ou numérique à échéance de la formation.

Méthodes d'évaluation des acquis

Exercices individuels et collectifs durant la formation. La feuille d’émargement signée par demi-journée ainsi que l’évaluation des acquis de fin de stage sont adressées avec la facture.

Méthodes d'évaluation des acquis de la formation à distance

Exercices individuels et collectifs communiqués durant la formation via la bibliothèque pédagogique virtuelle mise à disposition ou directement par le formateur. Ces activités constituent les modalités de suivi et d’évaluation du Stagiaire de la part du formateur. Suivi permanent du formateur durant l’animation et durant les exercices pratiques.

Programme

Introduction aux technologies Big Data

Stockage et traitement de données massives : problèmes et solutions
Panorama des technologies NoSQL, bases de données distribuées et en colonnes

Présentation de l'écosystème Hadoop

Coût, performance et évolutivité : promesses et gains effectifs
Les composants logiciels majeurs : Zookeeper, HDFS, HBase
Les différentes utilisations : comme solution de stockage, d'ETL, de traitement batch

Hadoop par la pratique

Notions de base : HDFS et programmation Map/Reduce

Design d'un cluster Hadoop

Topologie : les différents serveurs et leurs rôles
Configuration matérielle
Les différentes distributions Hadoop
Choix des briques logicielles selon l'usage du cluster
Dimensionnement

Provisionnement et déploiement

Déploiement manuel
Outils d'automatisation (Chef/Puppet, Whirr/Pallet)
Installation d'Hive, Pig, Hbase
Configuration et paramétrage

Administration et opération

Gestion des données (backup, localisation et réplication)
Gestion des jobs et schedulers
Monitoring du cluster
Ajout et décommission de nœuds
Benchmarks, tuning et optimisation
Résolution de problèmes, login et debugging

Intégration au SI

Stratégies et étapes d'intégration
Les différentes couches d'abstraction selon le public utilisateur
Connection aux bases de données relationnelles via Sqoop et JDBC
Ingestion de données via Flume
Interfacer avec les services avals

Hadoop et ses compléments

Forces et faiblesses de la plateforme selon les cas d'utilisation
Alternatives et compléments
Comment intégrer Hadoop à Storm, Cassandra, Mongo, Giraph...

Déploiement à grande échelle

Hadoop sur le cloud : l'offre d'Amazon, Elastic MapReduce
Hadoop chez Facebook, LinkedIn, Orbitz...

Spark - Traitement de données

3 jours - 21 heures

Objectifs

Comprendre les fondamentaux du développement d'applications Big Data en temps réel. Appliquer les systèmes de calculs distribués en temps réel. Traiter des grosses quantités de données en temps réel.

Participants

Développeurs informatiques, Chefs de projet, Data Scientists, Consultants en business intelligence, Responsables système d’informations.

Prérequis

Avoir connaissance langages orientés objet (Java, Python…).

Pédagogie

Spécificités pédagogiques de la session à distance

Remarques

Certification

Profil de l'intervenant

Consultant-formateur expert. Suivi des compétences techniques et pédagogiques assuré par nos services.

Moyens techniques

Moyens techniques relatifs aux sessions à distance

Méthodes d'évaluation des acquis

Exercices individuels et collectifs durant la formation. La feuille d’émargement signée par demi-journée ainsi que l’évaluation des acquis de fin de stage sont adressées avec la facture.

Méthodes d'évaluation des acquis de la formation à distance

Programme

Introduction

Présentation Spark, origine du projet, apports, principe de fonctionnement
Langages supportés

Premiers pas

Utilisation du shell Spark avec Scala ou Python
Gestion du cache

Règles de développement

Mise en pratique en Java et Python
Notion de contexte Spark
Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe
Manipulations sur les RDD (Resilient Distributed Dataset)
Fonctions, gestion de la persistence

Cluster

Différents cluster managers : Spark en autonome, avec Mesos, avec Yarn, avec Amazon EC2
Architecture : SparkContext,Cluster Manager, Executor sur chaque nœud
Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
Mise en oeuvre avec Spark et Amazon EC2
Soumission de jobs, supervision depuis l'interface web

Intégration hadoop

Travaux pratiques avec YARN
Création et exploitation d'un cluster Spark/YARN

Support Cassandra

Description rapide de l'architecture Cassandra. Mise en oeuvre depuis Spark
Exécution de travaux Spark s'appuyant sur une grappe Cassandra

Spark SQL

Objectifs : traitement de données structurées
Optimisation des requêtes
Mise en oeuvre de Spark SQL
Comptabilité Hive

Streaming

Objectifs, principe de fonctionnement : stream processing
Source de données : HDFS, Flume, Kafka,...
Notion de Streaming : Contexte, DStreams, démonstrations

MLib

Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistence, statistiques
Support de RDD
Mise en œuvre avec les DataFrames

GraphX

Fourniture d'algorithmes, d'opérateurs simples pour des calculs statistiques sur les graphes

Hadoop - Architecture et administration de clusters

Hadoop - Architecture et administration de clusters

Objectifs

Participants

Prérequis

Pédagogie

Spécificités pédagogiques de la session à distance

Remarques

Certification

Profil de l'intervenant

Moyens techniques

Moyens techniques relatifs aux sessions à distance

Méthodes d'évaluation des acquis

Méthodes d'évaluation des acquis de la formation à distance

Programme

Introduction aux technologies Big Data

Présentation de l'écosystème Hadoop

Hadoop par la pratique

Design d'un cluster Hadoop

Provisionnement et déploiement

Administration et opération

Intégration au SI

Hadoop et ses compléments

Déploiement à grande échelle

Spark - Traitement de données

Spark - Traitement de données

Objectifs

Participants

Prérequis

Pédagogie

Spécificités pédagogiques de la session à distance

Remarques

Certification

Profil de l'intervenant

Moyens techniques

Moyens techniques relatifs aux sessions à distance

Méthodes d'évaluation des acquis

Méthodes d'évaluation des acquis de la formation à distance

Programme

Introduction

Premiers pas

Règles de développement

Cluster

Intégration hadoop

Support Cassandra

Spark SQL

Streaming

MLib

GraphX

adhara France – Loging SAS - Organisme de formation enregistré sous le n° 24450269645 auprès du préfet de Région Centre-Val-de-Loire