Eine essentielle Aufgabe eines jeden Datenanalysten, Daten-Scientists oder Dateningenieurs ist die Verarbeitung, Analyse und Visualisierung von großen Datenmengen.
Während dieser Schulung lernen die Teilnehmer die Grundlagen der Cloud-basierten Datenanalyse- und Kollaborationsplattform ‘Databricks’ kennen. Wir klären über die Funktionsweise der Plattform auf, und unsere Teilnehmer sind im Anschluss an die Schulung in der Lage, eigene Datenpipelines und Analysen zu erstellen sowie Machine-Learning-Modelle zu entwickeln. Neben der Einführung in die Datenverarbeitung und Analyse erlernen die Teilnehmer Methoden zur Datenbereinigung, Optimierung und Visualisierung.
Wie bei allen unseren Schulungen handelt es sich bei der Schulung ‘Databricks Grundlagen’ um eine Hands-On-Veranstaltung. Praxisnahe Use Cases geben unseren Teilnehmern im Anschluss an den Theorieteil die Möglichkeit, erlernte Methoden und Konzepte direkt anzuwenden und somit neues Wissen zu festigen.
- Einführung
- Was ist Databricks?
- Grundlagen von Apache Spark und dessen Rolle in Databricks
- Praxis-Beispiele
- Datenquellen
- Anbindung und Import von Datenquellen (Cloud-Speicher, Datenbanken, APIs)
- Datenbereinigung und Transformationen
- Arbeiten mit strukturierten und unstrukturierten Daten
- Optimierung und Partitionierung von Daten
- Arbeiten mit Databricks
- Erstellung und Nutzung von Notebooks
- Grundlagen von PySpark, SQL und Scala in Databricks
- Datenpipelines erstellen und automatisieren
- Daten visualisieren und Dashboards erstellen
- Insights generieren
- Nutzung von SQL-Analytics
- Durchführung komplexer Analysen mit Spark DataFrames
- Arbeiten mit Geo-Daten
- Einführung in Machine Learning mit MLflow
- Statistische Analysen und Vorhersagemodelle erstellen
- Databricks als Kollaborations- und Analyseplattform
- Zusammenarbeit in Teams (Notebooks teilen und kommentieren)
- Cluster erstellen und verwalten
- Integration mit BI-Tools wie Tableau oder Power BI
- Workflows und Prozesse automatisieren