MSDA-3 - MOC 20775 - PERFORM DATA ENGINEERING ON MICROSOFT HD INSIGHT

INFORMAZIONI SUL CORSO

durata

Durata:

5 GIORNI
categoria

Categoria:

Data and Analytics
qualifica

Qualifica istruttore:

Microsoft Certified Trainer
dedicato a

Dedicato a:

Professionista IT
produttore

Produttore:

Microsoft

SCEGLI LA SEDE PER QUESTO CORSO

CORSO A CALENDARIO

Per vedere le informazioni relative al calendario del corso scegli prima una sede
sede
Sede: PCSNET Roma
prezzo
Prezzo: 2.020 € + IVA
Questo corso attualmente non ha date a Calendario e può essere erogato in forma dedicata.
Usa il box qui accanto per richiederne uno apposta per te!
sede
Sede: PCSNET Milano
prezzo
Prezzo: 2.020 € + IVA
Questo corso attualmente non ha date a Calendario e può essere erogato in forma dedicata.
Usa il box qui accanto per richiederne uno apposta per te!
sede
Sede: PCSNET NordEst
prezzo
Prezzo: 2.020 € + IVA
Questo corso attualmente non ha date a Calendario e può essere erogato in forma dedicata.
Usa il box qui accanto per richiederne uno apposta per te!
sede
Sede: PCSNET Torino
prezzo
Prezzo: 2.020 € + IVA
Questo corso attualmente non ha date a Calendario e può essere erogato in forma dedicata.
Usa il box qui accanto per richiederne uno apposta per te!
sede
Sede: PCSNET Emilia Romagna
prezzo
Prezzo: 2.020 € + IVA
Questo corso attualmente non ha date a Calendario e può essere erogato in forma dedicata.
Usa il box qui accanto per richiederne uno apposta per te!
sede
Sede: PCSNET Toscana
prezzo
Prezzo: 2.020 € + IVA
Questo corso attualmente non ha date a Calendario e può essere erogato in forma dedicata.
Usa il box qui accanto per richiederne uno apposta per te!
sede
Sede: PCSNET Marche
prezzo
Prezzo: 2.020 € + IVA
Questo corso attualmente non ha date a Calendario e può essere erogato in forma dedicata.
Usa il box qui accanto per richiederne uno apposta per te!
sede
Sede: PCSNET Umbria
prezzo
Prezzo: 2.020 € + IVA
Questo corso attualmente non ha date a Calendario e può essere erogato in forma dedicata.
Usa il box qui accanto per richiederne uno apposta per te!
sede
Sede: PCSNET Napoli
prezzo
Prezzo: 2.020 € + IVA
Questo corso attualmente non ha date a Calendario e può essere erogato in forma dedicata.
Usa il box qui accanto per richiederne uno apposta per te!
sede
Sede: PCSNET Sicilia
prezzo
Prezzo: 2.020 € + IVA
Questo corso attualmente non ha date a Calendario e può essere erogato in forma dedicata.
Usa il box qui accanto per richiederne uno apposta per te!

CORSO DEDICATO

Per avere informazioni sul corso dedicato compila il form e ti contatteremo

CORSO DEDICATO

Grazie per la tua richiesta, ti contatteremo al più presto.

OBIETTIVI

Distribuire i cluster di HDInsight.

Autorizzare gli utenti ad accedere alle risorse.

Caricare dati in HDInsight.

Risolvere i problemi di HDInsight.

Implementare soluzioni batch.

Implementare soluzioni ETL per la progettazione di batch per Big Data con Spark

Analizzare i dati con Spark SQL.

Analizzare i dati con Hive e Phoenix.

Descrivere lo Stream Analytics.

Implementare lo Spark Streaming Utilizzando l'API DStream.

Sviluppare soluzioni di elaborazione in tempo reale di Big Data con Apache Storm.

Implementare soluzioni che utilizzano Kafka e HBase.

PREREQUISITI

Esperienza di programmazione usando R e familiarità con i comuni pacchetti R.

Conoscenza dei metodi statistici comuni e delle migliori pratiche di analisi dei dati.

Conoscenza di base del sistema operativo Microsoft Windows e delle sue funzionalità principali.

Conoscenza di lavoro dei database relazionali.

CONTENUTI:

Module 1: Getting Started with HDInsight
What is Big Data?
Introduction to Hadoop
Working with MapReduce Function
Introducing HDInsight
Lab : Working with HDInsight
Provision an HDInsight cluster and run MapReduce jobs
After completing this module, students will be able to:
Describe Hadoop, MapReduce and HDInsight.
Use scripts to provision an HDInsight Cluster.
Run a word-counting MapReduce program using PowerShell.
Module 2: Deploying HDInsight Clusters
Identifying HDInsight cluster types
Managing HDInsight clusters by using the Azure portal
Managing HDInsight Clusters by using Azure PowerShell
Lab : Managing HDInsight clusters with the Azure Portal
Create an HDInsight cluster that uses Data Lake Store storage
Customize HDInsight by using script actions
Delete an HDInsight cluster
After completing this module, students will be able to:
Identify HDInsight cluster types
Manage HDInsight clusters by using the Azure Portal.
Module 3: Authorizing Users to Access Resources
Non-domain Joined clusters
Configuring domain-joined HDInsight clusters
Manage domain-joined HDInsight clusters
Lab : Authorizing Users to Access Resources
Prepare the Lab Environment
Manage a non-domain joined cluster
After completing this module, students will be able to:
Identify the characteristics of non-domain and domain-joined HDInsight clusters.
Create and configure domain-joined HDInsight clusters through the Azure PowerShell.
Manage the domain-joined cluster using the Ambari management UI and the Ranger Admin UI.
Create Hive policies and manage user permissions.

Module 4: Loading data into HDInsight

Storing data for HDInsight processing
Using data loading tools
Maximising value from stored data
Lab : Loading Data into your Azure account
Load data for use with HDInsight
After completing this module, students will be able to:
Discuss the architecture of key HDInsight storage solutions.
Use tools to upload data to HDInsight clusters.
Compress and serialize uploaded data for decreased processing time.
Module 5: Troubleshooting HDInsight
Analyze HDInsight logs
YARN logs
Heap dumps
Operations management suite
Lab : Troubleshooting HDInsight
Analyze HDInsight logs
Analyze YARN logs
Monitor resources with Operations Management Suite
Locate and analyze HDInsight logs.
Use YARN logs for application troubleshooting.
Understand and enable heap dumps.
Describe how the OMS can be used with Azure resources.
Module 6: Implementing Batch Solutions
Apache Hive storage
HDInsight data queries using Hive and Pig
Operationalize HDInsight
Lab : Implement Batch Solutions
Deploy HDInsight cluster and data storage
Use data transfers with HDInsight clusters
Query HDInsight cluster data
After completing this module, students will be able to:
Understand Apache Hive and the scenarios where it can be used.
Run batch jobs using Apache Hive and Apache Pig.
Explain the capabilities of the Microsoft Azure Data Factory and Apache Oozie—and how they can orchestrate and automate big data workflows.
Module 7: Design Batch ETL solutions for big data with Spark
What is Spark?
ETL with Spark
Spark performance
Lab : Design Batch ETL solutions for big data with Spark.
Create a HDInsight Cluster with access to Data Lake Store
Use HDInsight Spark cluster to analyze data in Data Lake Store
Analyzing website logs using a custom library with Apache Spark cluster on HDInsight
Managing resources for Apache Spark cluster on Azure HDInsight
After completing this module, students will be able to:
Describe the architecture of Spark on HDInsight.
Describe the different components required for a Spark application on HDInsight.
Identify the benefits of using Spark for ETL processes.
Create Python and Scala code in a Spark program to ingest or process data.
Identify cluster settings for optimal performance.
Track and debug jobs running on an Apache Spark cluster in HDInsight.
Module 8: Analyze Data with Spark SQL
Implementing iterative and interactive queries
Perform exploratory data analysis
Lab : Performing exploratory data analysis by using iterative and interactive queries
Build a machine learning application
Use zeppelin for interactive data analysis
View and manage Spark sessions by using Livy
Module 9: Analyze Data with Hive and Phoenix
Implement interactive queries for big data with interactive hive.
Perform exploratory data analysis by using Hive
Perform interactive processing by using Apache Phoenix
Lab : Analyze data with Hive and Phoenix
Implement interactive queries for big data with interactive Hive
Perform exploratory data analysis by using Hive
Perform interactive processing by using Apache Phoenix
After completing this module, students will be able to:
Implement interactive queries with interactive Hive.
Perform exploratory data analysis using Hive.
Perform interactive processing by using Apache Phoenix.
Module 10: Stream Analytics
Stream analytics
Process streaming data from stream analytics
Managing stream analytics jobs
Lab : Implement Stream Analytics
Process streaming data with stream analytics
Managing stream analytics jobs
After completing this module, students will be able to:
Describe stream analytics and its capabilities.
Process streaming data with stream analytics.
Manage stream analytics jobs.
Module 11: Implementing Streaming Solutions with Kafka and HBase
Building and Deploying a Kafka Cluster
Publishing, Consuming, and Processing data using the Kafka Cluster
Using HBase to store and Query Data
Lab : Implementing Streaming Solutions with Kafka and HBase
Create a virtual network and gateway
Create a storm cluster for Kafka
Create a Kafka producer
Create a streaming processor client topology
Create a Power BI dashboard and streaming dataset
Create an HBase cluster
Create a streaming processor to write to HBase
After completing this module, students will be able to:
Build and deploy a Kafka Cluster.
Publish data to a Kafka Cluster, consume data from a Kafka Cluster, and perform stream processing using the Kafka Cluster.
Save streamed data to HBase, and perform queries using the HBase API.
Module 12: Develop big data real-time processing solutions with Apache Storm
Persist long term data
Stream data with Storm
Create Storm topologies
Configure Apache Storm
Lab : Developing big data real-time processing solutions with Apache Storm
Stream data with Storm
Create Storm Topologies
After completing this module, students will be able to:
Persist long term data.
Stream data with Storm.
Create Storm topologies.
Configure Apache Storm.
Module 13: Create Spark Streaming Applications
Working with Spark Streaming
Creating Spark Structured Streaming Applications
Persistence and Visualization
Lab : Building a Spark Streaming Application
Installing Required Software
Building the Azure Infrastructure
Building a Spark Streaming Pipeline
After completing this module, students will be able to:
Describe Spark Streaming and how it works.
Use discretized streams (DStreams).
Work with sliding window operations.
Apply the concepts to develop Spark Streaming applications.
Describe Structured Streaming.

INFO

  • Esame: 70-775 - Perform Data Engineering on Microsoft HD Insight
  • Manuale: Il Materiale Didattico Ufficiale per tutti i corsi Microsoft MOC può essere richiesto, se disponibile, in forma elettronica (DMOC) invece che cartacea e lo studente iscritto potrà scaricarlo dal sito Microsoft. Chi acquista un DMOC ha diritto a consultare tutte le versioni del manuale, sia quelle precedenti a quella che acquista sia quelle che usciranno successivamente, dove troverà corretti eventuali errori e/o le novità del prodotto.
  • Prezzo manuale: 250 € incluso nel prezzo del corso
  • Natura del corso: Operativo (previsti lab su PC)

PARTNERSHIP