12 октября 2021
Озеро данных: ценность и потенциал хранения
Что нужно знать предприятиям, чтобы эффективно хранить и извлекать данные
«Озёра данных» (Data Lakes) обладают огромным потенциалом, в частности, для производителей. Тем не менее, многие организации не осознают истинной ценности своих данных. Cогласно Gartner, более 90% развернутых озер данных близки к тому, чтобы стать бесполезными, поскольку они перегружены информационными активами, собранными для неопределенных вариантов использования.
Итак, что же такое Data Lake и как компаниям извлекать ценность из своих данных?
Что такое озеро данных
Промышленные предприятия и корпорации давно решают задачи выявления способов оптимизации бизнес-процессов, сокращения производственных затрат, расходов на логистику, увеличения объемов производства, управления рыночными потребностями. Для решения этих вопросов необходима как можно более детализированная информация о бизнес-процессах, чтобы, например, обнаруживать места, где и как можно оптимизировать производственную линию.
Озеро данных – это централизованное хранилище, которое позволяет хранить все структурированные и неструктурированные данные организации в любом масштабе. В отличие от других форм хранилища (Data Warehouses), которые представляют собой базу структурированных отфильтрованных данных, и также широко используются для хранения больших данных и определенной цели, Data Lake – это обширный пул необработанных данных, цель которого еще не определена.
Зачем использовать озеро данных и как извлечь максимум пользы
Прежде всего, озера данных имеют открытый формат, поэтому пользователи избегают привязки к определенной системе, такой как Data Warehouse. Они также отличаются высокой надежностью и низкой стоимостью благодаря их способности масштабировать и использовать хранилище объектов. Кроме того, расширенная аналитика и машинное обучение неструктурированных данных являются одними из наиболее стратегических приоритетов для предприятий сегодня.
Уникальная возможность принимать необработанные данные в различных форматах наряду с другими упомянутыми преимуществами делают озеро данных очевидным выбором для хранения данных, которые могут быть использованы компанией в будущем.
При правильной архитектуре озёра данных позволяют компаниям:
- преобразовывать необработанные данные в структурированные, готовые для SQL-аналитики, обработки данных и машинного обучения с малой задержкой;
- быстро и легко интегрировать различные источники и форматы данных: все типы информации могут собираться и храниться в озере данных неопределенный срок, включая пакетные и потоковые данные, видео, изображения и т.п.);
- консолидировать данные и создавать каталоги: централизованное озеро данных устраняет проблемы с разрозненными объектами (например, дублирование информации, несколько политик безопасности и т.д.);
- делать данные доступными и открытыми: гибкость Data Lake позволяет пользователям с совершенно разными навыками и инструментами выполнять разные аналитические задачи одновременно.
Проблемы построения озера данных
Несмотря на уже озвученные плюсы, многие обещания озер данных не были реализованы из-за отсутствия некоторых важных функций: отсутствие поддержки загрузки, контроля качества данных или управления. В результате большинство озер данных на предприятии превратились в «болота данных».
Одна из задач, которую необходимо решить при построении озера данных, – это загрузка в него информации, которая поступает из многих источников. Зачастую, каждый из этих источников информации имеет свои особенности и их необходимо подготовить к загрузке. Для обработки информации из нескольких источников и ее объединения в единый набор данных используют систему, называемую «конвейером данных».
Автоматизация обработки данных из источников позволяет ускорить процесс сбора информации. Кроме того, с помощью конвейера данных можно автоматически совершать мета-разметку, что позволяет пользователям быстрее извлекать необходимый для анализа дата-сет.
Кроме того, при установке систем хранения информации важно помнить о следующих важных факторах:
Безопасность. Приоритетной задачей при установке систем хранения информации является обеспечение должной безопасности хранимых данных. Кроме защиты информации от внешних угроз, также необходимо грамотно распределить права доступа к данным между сотрудниками компании.
Надежность и достоверность информации. Без надлежащих инструментов озёра данных могут страдать от проблем с надежностью данных и их достоверности. Эти проблемы могут быть вызваны сложностью объединения пакетных и потоковых данных, повреждением данных и другими факторами. Недостоверность данных приведет к ненадежным, искаженным результатам анализа. Кроме того, они будут занимать место в хранилище, не принося даже гипотетической пользы в будущем.
Медленная производительность. По мере увеличения массива данных в озере производительность традиционных запросов снижается. Внимания потребуют управление метаданными, корректность разметки.
Многие компании сегодня используют такие решения в тестовом режиме, в основном пользуясь классическими системами хранения.
Какие компании используют озеро данных
В настоящее время озёра данных становятся все более важными для обрабатывающих производств, которые собирают и хранят огромные объемы информации, генерируемой датчиками. Кроме того, чтобы в полной мере использовать эти данные, многие промышленные производственные компании используют передовую промышленную аналитику, чтобы получить полное представление о своих процессах.
Одной из первых российских компаний, развернувших озеро данных, стала «Газпром нефть» с ее проектом «Умное озеро данных», который используется в дирекции региональных продаж, занимающейся сбытом продукции. В 2020 году около 75% аналитических проектов было создано с использованием этой технологии. Данное решение позволило компании значительно ускорить процесс запуска новых продуктов. «Умное озеро данных» используется для обработки операций сети АЗС «Газпром нефть». Используя информацию из множества источников, таких как отзывы покупателей, метеорологические прогнозы, отзывы сервисов Яндекса, Google и App Store, компания формирует максимально персонализированные предложения для своих клиентов, что позволяет ей увеличить прибыль.
Среди других примеров – применение озера данных Новолипецким металлургическим комбинатом (НЛМК), разработанного для предприятия экспертами «Инфосистемы Джет». НЛМК, в рамках данного проекта, ставило перед собой такие цели как: оптимизация производственных процессов, снижение стоимости готовой продукции и создание инструмента для последующей разработки и применения алгоритмов машинного обучения. В результате была создана система, позволяющая хранить 300 терабайт информации, автоматически поступающей из более семидесяти источников, в основном с датчиков производственного цеха. На базе решения был создан сервис для ускорения работы стана горячей прокатки. Используя данные датчиков, алгоритм машинного обучения выдает операторам прокатного стана рекомендации по скорости подачи заготовок в режиме реального времени. Решение, по данным компании, позволяет предприятию экономить около 30 млн рублей в год.
Потенциал Data Lake
Озёра данных предлагают существенные преимущества, особенно компаниям, занимающимся промышленными процессами, которые собирают огромные объемы данных, генерируемых датчиками.
Data Lake призвано заменить традиционно применяемые хранилища данных, так как оно дешевле и позволяет более гибко подстраиваться под меняющиеся задачи бизнеса. Но, несмотря на преимущества решения, его потенциал еще не до конца исследован, что не позволяет оценить всю потенциальную выгоду.
Стоит также иметь в виду, что для небольших компаний, выгоднее будет не строить свое озеро, а воспользоваться «озером данных как услугой» – облачным решением от внешних поставщиков.
Чтобы узнать больше о практике развертывания озер данных, как раскрыть потенциал Data Lake данных и истинную ценность своих данных, регистрируйтесь на онлайн-конференцию «DIGITAL MINING & METALLURGY Online Conf: решения для интеллектуальной добычи и металлургии», чтобы задать вопросы практикам и экспертам технологических компаний 24–25 ноября 2021 года.
Узнать больше о мероприятиях и услугах компании можно по телефону +7 (495) 128 37 03 или электронной почте info@smartgopro.ru.
Источники:
1) Outlier.AI, 2019
2) Пресс-центр «Газпром Нефть», 2020
3) Tadviser, 2020