In Gesprächen und Projekten begegnet uns häufig, dass die Medallion-Architektur als Datenmodellierungs-Ansatz dargestellt wird. Das ist sie nicht. Schichtung und Modellierung sauber zu trennen, lohnt sich, weil von dieser Unterscheidung abhängt, wie flexibel und wartbar eine Datenplattform langfristig bleibt.
Was die Medallion-Architektur wirklich ist
Die Medallion-Architektur ist ein Ansatz zur Datenschichtung innerhalb einer Plattform, etwa auf Azure Databricks. Sie ordnet Daten nach ihrem Aufbereitungsgrad: Bronze enthält die Rohdaten so, wie sie aus den Quellen geliefert werden. Silver steht für Bereinigung, Deduplizierung und Konformierung über Quellen hinweg. Gold liefert die business-fertigen Daten für Reporting, Analytics und KI.
Wir setzen diesen Ansatz selbst gern ein, weil er Daten Schritt für Schritt in nachvollziehbarer Weise aufbereitet. Jede Schicht hat eine klare Aufgabe, und jeder Tabelle sieht man an, wie weit sie verarbeitet ist.
Genau hier liegt jedoch das Missverständnis: Die Schichtung beschreibt den Aufbereitungsgrad Ihrer Daten. Sie sagt nichts darüber aus, wie Sie Ihr Geschäft in Tabellen abbilden.
Was Datenmodellierung beantwortet
Modellierung beantwortet eine andere Klasse von Fragen: Welche fachlichen Entitäten gibt es, wie hängen sie zusammen, auf welcher Granularität liegen sie, welche Schlüssel verwenden Sie, und wie gehen Sie mit Historie um? Diese Fragen werden innerhalb der Schichten beantwortet, in der Regel in Silver und Gold. Welche Methodik Sie dafür wählen, gibt die Medallion-Architektur jedoch nicht vor. Das ist eine zusätzliche, bewusste Entscheidung.
Zwei Methodiken, die beide ihre Berechtigung haben
In der Praxis sehen wir vor allem zwei Ansätze.
Kimball, also das Star Schema, ist schneller umgesetzt, einfacher in der Struktur und hat eine niedrige Lernkurve. Es eignet sich gut, wenn die Daten im Kern eine klare, stabile Business-Interpretation haben. Mit laufend wechselnden Quellen und Anforderungen wird es über die Zeit jedoch weniger flexibel.
Data Vault 2.0 bringt einen höheren Initialaufwand und eine steilere Lernkurve mit. Dafür ist es deutlich flexibler bei vielen heterogenen Quellen, mehreren validen Business-Interpretationen und sich häufig ändernden Anforderungen. Die Historisierung steckt sauber in den Satellites, was zugleich die Auditierbarkeit verbessert.
Beide Methodiken funktionieren innerhalb derselben Medallion-Schichten. In Gold können Sie ebenso ein Star Schema wie ein Data Vault umsetzen, je nachdem, was zu Ihren Anforderungen passt.
Zwei Entscheidungen, nicht eine
Schichtung und Modellierung sind damit zwei verschiedene Entscheidungen: Die Schichtung bestimmt den Aufbereitungsgrad der Daten, die Modellierung ihre Struktur. Wer beides als dasselbe behandelt, trifft die Modellierungsentscheidung oft unbewusst, und gerade sie hat den größten Einfluss darauf, wie gut die Plattform mit neuen Anforderungen mitwächst.
Sie stehen vor der Frage, wie Sie Ihre Silver- und Gold-Schichten auf Azure Databricks modellieren, ob Kimball oder Data Vault 2.0? Wir unterstützen Sie bei der Entscheidung und beim Aufbau einer Plattform, die mit Ihren Anforderungen mitwächst.
Erstgespräch vereinbaren