
På kurset starter vi med at oprette et Databricks Workspace i Azure og konfigurere Unity Catalog. Dernæst dykker vi ned i de essentielle dele, man skal kende til som Data Engineer, når man arbejder med Databricks. Muligheden for at køre serverless har f.eks. gjort det endnu mere attraktivt at anvende Databricks, fordi der er mindre ventetid på at et cluster starter op og er klar.
I dag er data ikke længere kun pænt struktureret information i databaser, som vi kan tilgå med SQL. Vi har brug for andre måder at opbevare og analysere data på, for data kan være lyd, video, billeder og f.eks. json med hierarkisk data.
Databricks opfandt det moderne Lakehouse, som giver os det bedste fra to verdener, for det er simpelthen et mix af en datalake og et datawarehouse. Vi kan gemme og opbevare data som filer, og via notebooks med Python/Scala kode, kan vi transformere og klargøre data, så vi får mere struktureret data, der egner sig til et datawarehouse og data analyse.
Tabeller i et Lakehouse gemmes via Delta Lake i parquet filer, og hver tabel har en tilhørende transaktionslog. Det betyder vi har syrereglen (ACID), som vi genkender fra database verdenen.
Kurset giver en grundig introduktion til Databricks, og hvad et moderne Lakehouse er. Du får en dybere forståelse af Delta Lake og laver transformationer med en Spark dataframe. Vi tilrettelægger batch load af data, og konfigurerer det som et workflow med en schedule. Dernæst kigger vi på mulighederne for realtids data i Databricks. Structured streaming i kombination med Delta Live Tables er et stærkt værktøj til at håndtere data som f.eks. løbende ankommer som events/filer i blob storage.
Til slut kigger vi på hvilke muligheder Databricks tilbyder i form af et Datawarehouse, sql queries og dashboards med visualiseringer.
Det ligger os meget på sinde, at du finder det kursusforløb, der skaber størst værdi for dig og din arbejdsplads. Tag fat i vores kursusrådgivere, de sidder klar til at hjælpe dig!
