
Databricks Data Engineer
Beskrivelse
På kurset starter vi med at oprette et Databricks Workspace i Azure og konfigurere Unity Catalog. Dernæst dykker vi ned i de essentielle dele, man skal kende til som Data Engineer, når man arbejder med Databricks. Muligheden for at køre serverless har f.eks. gjort det endnu mere attraktivt at anvende Databricks, fordi der er mindre ventetid på at et cluster starter op og er klar.
I dag er data ikke længere kun pænt struktureret information i databaser, som vi kan tilgå med SQL. Vi har brug for andre måder at opbevare og analysere data på, for data kan være lyd, video, billeder og f.eks. json med hierarkisk data.
Databricks opfandt det moderne Lakehouse, som giver os det bedste fra to verdener, for det er simpelthen et mix af en datalake og et datawarehouse. Vi kan gemme og opbevare data som filer, og via notebooks med Python/Scala kode, kan vi transformere og klargøre data, så vi får mere struktureret data, der egner sig til et datawarehouse og data analyse.
Tabeller i et Lakehouse gemmes via Delta Lake i parquet filer, og hver tabel har en tilhørende transaktionslog. Det betyder vi har syrereglen (ACID), som vi genkender fra database verdenen.
Kurset giver en grundig introduktion til Databricks, og hvad et moderne Lakehouse er. Du får en dybere forståelse af Delta Lake og laver transformationer med en Spark dataframe. Vi tilrettelægger batch load af data, og konfigurerer det som et workflow med en schedule. Dernæst kigger vi på mulighederne for realtids data i Databricks. Structured streaming i kombination med Delta Live Tables er et stærkt værktøj til at håndtere data som f.eks. løbende ankommer som events/filer i blob storage.
Til slut kigger vi på hvilke muligheder Databricks tilbyder i form af et Datawarehouse, sql queries og dashboards med visualiseringer.
Moduloversigt
- Modul 1Introduction and key concepts and features
- Introduction
- Data lake vs Lakehouse
- What is Databricks?
- What is Spark?
- Cloud Provider (Microsoft Azure, AWS, Google Cloud)
- Modul 2Get started with Azure Databricks
- Deployment of Azure Databricks workspace
- Creating a Databricks cluster
- Serverless clusters
- Modul 3Notebooks in Databricks
- Creating and using notebooks
- Mix SQL, Scala and Python in your code cells
- Load and explore data
- Modul 4Data Governance and Unity Catalog
- Understanding Data Governance
- Unity catalog
- Securable objects and privileges
- Lakehouse Federation
- Catalog Explorer/browsing Unity Catalog
- Data lineage
- Entity relationships
- Modul 5Delta Lake
- ACID, Databases, table level transactions and data in files
- What is Delta lake?
- Data versioning and time travel in Delta Lake
- VACUUM
- OPTIMIZE
- Liquid Clustering
- Predictive Optimization
- Modul 6Apache Spark with focus on PySpark
- Spark
- Data transformation with a Spark dataframe
- Modul 7Data ingestion
- CTAS, COPY INTO
- Schemas, Schema Enforcement
- Schema Evolution
- Fetching data from various sources (e.g. Azure Data lake, AWS etc)
- Connecting to a database (Azure SQL or other)
- Modul 8Use SQL warehouses in Azure Databricks
- Get started with SQL warehouses in Databricks
- Create a SQL warehouse/cluster
- Serverless SQL warehouses
- Create schemas and tables
- Visualize data
- Create queries and dashboards
- Connect Databricks with external tools e.g. Power BI
- Modul 9Workflows and jobs
- Orchestrate and schedule workflows in Databricks
- Tasks
- Job clusters/serverless compute
- Schedule
- Notifications
- Monitor in the job UI
- Modul 10Streaming data in Databricks and Delta live tables (DLT)
- Structured streaming in Databricks
- Ingest data with structured streaming
- Autoloader
- Handle late data and out-of-order events in incremental processing
- What is DLT?
- Streaming tables, materialized views, views
- Medaillon architecture
- Check constraints, Quality constraints, warn, drop, fail
- Pipeline SQL syntax
- Pipeline Python syntax
- Monitor DLT, Eventlog
Er du i tvivl?
Det ligger os meget på sinde, at du finder det kursusforløb, der skaber størst værdi for dig og din arbejdsplads. Tag fat i vores kursusrådgivere, de sidder klar til at hjælpe dig!
