Data Lake: Tauchen im Datensee

Die Grundidee für Data Lakes ist eigentlich ganz einfach: Starr strukturierte Datenbankformate wie klassische Data Warehouseses sind unternehmensweit durchgeplant und dementsprechend unflexibel. Verloren gehen dabei alle unstrukturierten Daten, die in einem Unternehmen so anfallen: E-Mails, Word-Dokumente oder Daten aus Systemen, die nicht ans Data Warehouse angebunden sind. Da liegt es nahe, alle Daten zentral in einem einzigen großen Repository zu speichern. Die Datenmengen, die dabei entstehen, sind so groß, vielfältig und unstrukturiert, dass Big-Data-Techniken eingesetzt werden müssen. So basieren Abfragen und Anwendungen von Data Lakes meist auf dem Hadoop-Framework oder Microsoft Azure.

Erfunden hat den Begriff James Dixon, CTO des Business-Intelligence-Software-Anbieters Pentaho. In einem Blogpost von 2011 vergleicht er den Data Mart aus einem klassischen Data-Warehouse-System mit einem Laden voller Wasserflaschen. Die Flaschen und ihr Inhalt sind gereinigt und einheitlich abgefüllt, können ohne großen Aufwand gelagert, transportiert oder aus dem Regal genommen und getrunken werden, aber niemand weiß, was im Abfüllprozess an interessanten Daten verloren gegangen ist. Der Data Lake hingegen steht für den See voller Wasser in seinem natürlichen Zustand. Dieser See wird aus einem stetigen Strom unstrukturierter Daten gefüllt, und wer sie auswerten möchte, kann ihn untersuchen, Proben nehmen oder darin tauchen.

Weiterlesen bei t3n.de