Datensee

TÄTIGKEITSBEREICHE

Data Lake ist eine Technologie für den Erhalt und die Verwaltung von Daten in verschiedenen Formaten: in roher, ungeordneter oder, im Gegenteil, strukturierter oder locker strukturierter Form, in einem einzigen Repository.

Der Begriff wurde im Jahr 2010 von Pentaho-Gründer James Dixon geprägt. Bei der Beschreibung des Konzepts verglich er einen Data Lake mit einem Data Mart. Datenvitrinen sind wie abgefülltes Wasser - gereinigt und verpackt. Data Lakes sind offene Gewässer, in die Wasser aus verschiedenen Quellen fließt. Man kann in einen Data Lake eintauchen oder Proben von der Oberfläche nehmen.

Data Lakes eignen sich für das Sammeln, Speichern und Verarbeiten großer Informationsströme, die kontinuierlich eintreffen. Den Informationen, die in den See gelangen, werden Metadaten zugewiesen: Zeitpunkt des Eintreffens, Quelle, Format, Struktur und andere.

Herkömmliche Data Warehouses für Analyse- und Entscheidungsunterstützungssysteme werden seit über 30 Jahren eingesetzt. Data Lakes kombinieren das Beste aus Open-Source- und kostenlosen Technologien, um Geld bei der Datenerfassung und -verarbeitung zu sparen.