Решения в области интеграции данных

Обзор

Talend Open Studio (TOS) — мощное и универсальное решение в области интеграции данных, работающее по модели Open source с открытым исходным кодом.

Применение Talend Open Studio значительно повышает эффективность создания работ (job-ов) по интеграции данных, благодаря наличию простой в использовании графической среды разработки.

TOS предусматривает возможность быстрого развертывания job-ов и снижает затраты на их разработку и сопровождение за счет использования уже готовых компонентов и коннекторов ко всем исходным и конечным системам, а также наличия поддержки всех типов интеграции, миграции и синхронизации данных.

Talend Open Studio состоит из трех основных приложений, объединенных в единую графическую среду разработки на базе Eclipse, которую можно настроить под требования организации:

  • Средство моделирования бизнес-процессов (Business Modeler);
  • Проектировщик работ (Job Designer);
  • Менеджер метаданных (Metadata Manager).

Преимущества

 

  • Мощное и расширяемое решение по интеграции данных;
  • Решение, удовлетворяющее каждому требованию в рамках согласованных сроков и бюджета:

— Расширяемое решение даже при условии наличия самых сложных и индивидуальных требований Заказчика;

— Простота в разработке, позволяющая сократить период разработки от нескольких месяцев до нескольких дней или даже часов, в зависимости от поставленных задач.

— Привлекательность решения за счет преимуществ модели Open source.

  • Удовлетворение даже самых сложных требований бизнеса:

— Оперативное предоставление бизнес-пользователям запрашиваемой ими информации для принятия своевременных и эффективных решений.

— Расширяемость сервисов данных для обеспечения доступа одобренных приложений к любым корпоративным данным в режиме реального времени.

— Предоставление надежных данных в масштабе всей организации для удовлетворения как аналитических, так и операционных потребностей.

Применение

 

Решения Talend удовлетворяют всем требованиям по интеграции данных, возникающим в организациях любых размеров, а именно:

  • Интеграция операционных данных: в большинстве организаций интеграция операционных данных реализуется посредством индивидуально создаваемого программного обеспечения или стандартных программ,  в зависимости от специфики потребностей. Наиболее типичными задачами, которые решают приложениями по интеграциии данных, являются: миграция данных/ загрузка и синхронизация данных/репликация
  • Миграция данных: в случае обновления баз данных или приложений до последней версии или в случае перехода к использованию новой системы данные необходимо перенести в эту новую систему. Целью миграции данных является перенос существующих данных в новую среду. Необходимо преобразовать имеющиеся данные, выгруженные в формате старой системы, в другой формат, подходящий для новой системы.
  • Синхронизация данных: в информационной системе, в которой данные управляются несколькими приложениями или присутствует несколько баз данных, во многих случаях возникает потребность в поддержке совместимости данных между этими системами. Потребность в синхронизации данных может являться как постоянной задачей (синхронизация между действующими системами), так и временной задачей, например, возникающей в ходе миграции данных. Синхронизация данных включает в себя все процессы, поддерживающие данные в синхранизованном состоянии между приложениями и базами данных.
  • ETL для бизнес-аналитики и построения хранилищ данных:  ETL процессы (извлечение, преобразование и загрузка) — наиболее важные и ценные составляющие инфраструктуры систем бизнес-аналитики.  ETL процессы осуществляют обработку данных, поступающих из различных учетных систем и подготавливают их для дальнейшего анализа и систем построения отчетности. Этот процесс большей частью скрыт от пользователя систем бизнес-аналитики. Точность и своевременность работы единой BI платформы фактически основывается на процессах ETL. Open source решения по интеграции данных от Talend оптимизированны для ETL процессов высокого корпоративного уровня. Особенно важными для проектирования, разработки, выполнения и поддержки open source интеграции данных и ETL процессов являются следующие функциональные возможности:

Бизнес-ориентированное моделирование процессов, вовлекающее заинтересованных лиц со стороны бизнеса и обеспечивающее надлежащее взаимодействие между IT и бизнесом.

Полностью графическая среда разработки, значительно повышающая продуктивность и облегчающая поддержку решений.

Хорошо масштабируемая и исполняемая open source платформа, приумножающая возможности аппаратного обеспечения, и единственное решение, поддерживающее обе архитектуры ETL и ELT.

Широчайшие возможности подключения при интеграции данных для поддержки всех систем и получения доступа ко всем производственным данным, а также легкого добавления нового источника данных.

Встроенные усовершенствованные компоненты для ETL, включаяя операции со строками, медленно изменяющиеся измерения (SCD), поддержка массовой загрузки и т.д.

Функциональные возможности

 

  • Моделирование бизнес-процессов

Средство моделирования использует низходящий подход, позволяющий заинтересованным лицам со стороны бизнеса быть вовлеченными в проектирование интеграционных процессов и наблюдать за ходом разработки. Бизнес-модели больше ориентированы на бизнес-пользователей, а не на технический аспект, и создаются с помощью удобной библиотеки фигур и связей.

Средство моделирования группирует всю важную информацию, поддерживающую open source процессы интеграции, миграции и синхронизации данных, на понятных пользователю диаграммах. Это эффективный способ мониторинга работ и представления точного анализа в случае возникновения проблемы.

  • Графическая разработка

Проектироващик работ обеспечивает как графическое, так и функциональное представление существующих процессов интеграции, применяя графическую палету open source компонентов и коннекторов.

Интеграционные процессы выстраиваются путем простого перемещения выделенных компонент или коннекторов в рабочую область (drag-and-drop), рисования соединений и отношений между выбранными компонентами, а также задания свойств.

Для всех видов задач и операций, имеющих отношение к данным, управлению данными или информационным потокам, имеются компоненты и коннекторы. Коннекторы помогают отрганизовать доступ на чтение/запись всех источников данных и конечных систем для интеграции, миграции и синхронизации данных.

Настройка параметров выполняется в едином централизованном представлении, после выбора каждого компонента, используемого в job-е. Параметры также могут наследоваться из Менеджера метаданных (репозитория).

Сложные компоненты оснащены специальными интуитивно понятными графическими интерфейсами или встроенными визардами, помогающими пользователям строить job-ы.

Для большей наглядности и читаемости проектируемой работы (job-а) диаграммы могут быть разбиты на вложенные работы (subjobs), которые с точки зрения очередности выполнения могут быть как родительскими, так и дочерними работами. Другие компоненты оркестровки помогают пользователям выстраивать цепочку выполнения частей процесса.

Встроенное консольное представление позволяет пользователям наблюдать за отработкой job-а напрямую из среды разработки.

  • Проектирование с применением механизма метаданных

Все метаданные хранятся и управляются Менеджером метаданных (репозиторием) и доступны для всех модулей. В репозитории накапливается вся проектная информация и гарантируется согласованность этих данных в течение всех интеграционных процессов.

Мета информация об источниках и конечных системах легко загружается в Менеджер метаданных с помощью удобного интерфейса. В основе архитектуры Менеджера метаданных лежит открытая реляционная модель, позволяющая легко определять зависимости между работами, что облегчает поддержку работ по интеграции, миграции и синхронизации данных.

Различные данные, такие как детали подключения к базе данных или пути доступа к файлам, также могут храниться в Менеджере метаданных, тем самым позволяя упростить     их использование и обновление.
В Менеджере метаданных предусмотрена возможность получать схему баз данных источников и конечных систем всех ваших интеграционных процессов.

В случае необходимости, можно сохранять в репозитории (routines) части программного кода, дополнительно создаваемые в процессе работы на job-ми. Присутствует поддержка языка Java, что позволяет наращивать возможности встроенных компонент и создавать собственные.

  • Отладка в режиме реального времени

Talend Open Studio предлагает ряд функциональных возможностей по тестированию, отладке и настройке job-в, что позволяет в режиме реального времени отслеживать информационные потоки в процессе выполнения job-в, включая статистику и расширенную трассировку данных.

Во время выполнения интеграционного job-а в среде разработки в режиме реального времени выводится статистика, показывающая количество обработанных строк и строк, ушедших в «отказ», а также пропускная способность (количество строк в секунду). Такие возможности позволяют немедленно обнаруживать «узкие» места в процессах интеграции, миграции или синхронизации данных. Доступна возможность активации трассировки, которая демонстрирует построчно результат преобразований, а также традиционные точки ожидания останова и переменные для отладки.

Помимо всего вышеперечисленного весь генерируемый в процессе создания job-a код доступен на отдельной закладке в среде разработки TOS.

  • Разработка и поддержка

Неявная подгрузка контекстных параметров напрямую в open source среду проектирования   job-в помогает прорабатывать различные варианты их выполния и легко управлять ими. Созданные работы легко можно экспортировать и разворачивать на серверах или публиковать как сервисы данных.

Автоматическая генерация документации обеспечивает полную и отвечающую современным стандартам техническую документацию (в форматах XML и HTML), которая помогает разным пользователям и заинтересованным лицам поддерживать и обновлять полученные в результате разработки процессы.

Функция обнаружения зависимостей позволяет пользователям выявлять зависимости среди интеграционных процессов, разрабатываемых в TOS, и упрощает глобальное обновление большого ряда процессов, централизованно хранимых в репозитории.

  • Надежное и масштабируемое исполнение

В отличие от многих других решений по интеграции, миграции и синхронизации данных, в  основе которых лежит централизованный интеграционный сервер или применение исключительно возможностей движка РСУБД для процессинга данных, решение компании Talend позволяет пользователям выгружать процессы в исполняемые файлы, которые могут быть размещены в различных системах или могут быть опубликованы как веб-сервисы. Эти системы не обязательно должны быть предназначены для выполнения интеграционных процессов. Взамен, TOS максимально расширяет доступные возможности этих систем.

Решение Talend расширяет как традиционный ETL подход (извлечение-преобразование-загрузка), так и ELT подход (извлечение-загрузка-преобразование). ELT расширяет возможности движков РСУБД по выполнению преобразований данных внутри базы данных, достигая несравнимого уровня для пакетов больших размеров. Для каждой части процесса можно выбирать наиболее подходящий подход, позволяющий достигать самого высокого уровня представления и расширяемости для интеграции, миграции и синхронизации данных.

Такая архитектура, подходящая особенно для расширения возможностей ряда недорогих серверов, также как для высоко-нагруженных систем, позволяет процессить данные в область близкую по структуре к источнику (тем самым уменьшая передачу данных) и максимизировать использование компьютерных ресурсов.

Клиенты, использующие интеграцию данных Talend

 

Решения по интерграции данных с открытым исходным кодом используются в организациях любой отрасли и всех размеров для реализации совершенно разнообразных проектов.

  • Allianz Global Investors Distributors применяет интеграционное решение для создания информационных потоков, записывающих данные в единое хранилище;
  • Sony Online Entertainment  использует Talend для формирования игровых аналитик;
  • Monolith предоставляет мощное SaaS-решение (программное обеспечение как услуга)  по бизнес-аналитике для ресторанов быстрого обслуживания;
  • Monecam Group выстраивает свою сервисно-ориентированную архитектуру на основе Talend Integration Suite;
  • UMIT борется против рака, применяя интеграцию, получение и анализ важных данных в этой области.