Озеро Данных

СФЕРЫ НАШЕЙ ДЕЯТЕЛЬНОСТИ

Data Lake или Озеро данных — технология для получения и управления данными в разных форматах: в необработанном, неупорядоченном или, наоборот, структурированном или слабоструктурированном виде, в едином репозитории.

Термин придуман в 2010-м году основателем компании Pentaho Джеймсом Диксоном. Описывая концепцию, он сравнил Data Lake (Озеро Данных) и Data Mart (Витрина Данных). Витрины данных похожи на бутилированную воду — очищенную и упакованную. Озера данных — это открытые водоемы, в которые вода стекается из различных источников. В Озеро данных можно погружаться, а можно брать образцы с поверхности.

Озера данных удобны для сбора, хранения и обработки больших потоков информации, которая поступает непрерывно. Поступающей в озеро информации присваиваются метаданные: время поступления, источник, формат, структура и другое.

Традиционные хранилища данных для аналитики и систем поддержки принятия решений используются уже более 30 лет. Озера данных совмещают в себе лучшие открытые и бесплатные технологии, что позволяет сэкономить на сборе и обработке информации.