Архітектура і шаблони великих даних: Частина 1. Введення в класифікацію і архітектуру великих даних

Серія контенту:
Цей контент є частиною серії: Архітектура та шаблони великих даних
огляд
Від класифікації великих даних до вибору рішення для великих даних
Класифікація бізнес-завдань відповідно до типу великих даних
Таблиця 1. Класифікація бізнес-завдань в сфері високих даних за типами
Використання типу великих даних для класифікації характеристик великих даних
Висновок і подяки
Ресурси для скачування

Архітектура і шаблони великих даних

Як класифікувати великі дані по категоріях

Серія контенту:

Цей контент є частиною # з серії # статей: Архітектура та шаблони великих даних

http://www.ibm.com/developerworks/library/?search_by=Big+data+architecture

Слідкуйте за виходом нових статей цієї серії.

Цей контент є частиною серії: Архітектура та шаблони великих даних

Слідкуйте за виходом нових статей цієї серії.

огляд

Існує велика кількість способів для зберігання, отримання, обробки та аналізу великих даних. Кожен джерело великих даних має свої характеристики, відмінні від характеристик інших джерел (частота, обсяг, швидкість, тип і достовірність даних). При обробці і зберіганні великих дані в гру вступають додаткові "виміру", такі як керівництво, безпеку і політики. Вибір архітектури та створення відповідного рішення для роботи з великими даними - це непросте захід, оскільки при цьому потрібно враховувати дуже багато чинників.

У цьому циклі статей під загальною назвою "Архітектура і шаблони великих даних" представлений структурований і заснований на шаблонах підхід, який спрощує процедуру визначення загальної архітектури великих даних. Оцінка бізнес-сценарію на предмет відповідності проблематики великих даних вельми важлива, тому ми включили підказки, що допомагають визначати, які бізнес-завдання є хорошими кандидатами на використання рішень для роботи з великими даними.

Від класифікації великих даних до вибору рішення для великих даних

Пробні версії рішень IBM для роботи з великими даними

Завантажте пробну версію рішення IBM для великих даних і подивіться, як це рішення працює у вашій власній середовищі. Вам доступно кілька продуктів.

BigInsights Quick Start Edition - аналітична платформа IBM, заснована на програмному забезпеченні з відкритим кодом Hadoop і розширює його можливості завдяки таким функціям, як Big SQL, аналіз тексту і BigSheets.
InfoSphere Streams Quick Start Edition - призначена для невиробничого застосування версія InfoSphere Streams, високопродуктивної обчислювальної платформи, яка швидко поглинає, аналізує і зіставляє інформацію по мірі її надходження з тисяч джерел в реальному часі
Багато додаткові продукти для роботи з великими даними доступні для завантаження у вигляді пробних версій.

Якщо ви хоча б в мінімальному обсязі вивчали рішення для роботи з великими даними, то вже знаєте, що це далеко не проста справа. У цьому циклі статей послідовно описуються основні етапи відшукання рішення для роботи з великими даними, яке задовольняло б ваші потреби.

Спочатку ми розглянемо типи даних, що описуються терміном "великі дані". З метою спрощення типізації великих даних ми класифікуємо великі дані згідно з різними параметрами і описуємо логічну архітектуру для шарів і високорівневих компонентів, що входять до складу будь-якого рішення для роботи з великими даними. Потім ми пропонуємо структуру для класифікації бізнес-завдань в сфері високих даних за допомогою визначення "атомарних" (елементарних) і складових шаблонів класифікації. Наявність таких шаблонів дозволяє вибрати варіант оформлення рішення для подальшого застосування. Ми включили приклади бізнес-завдань з різних галузей. І, нарешті, для кожного компонента і для кожного шаблону ми вказуємо продукти, які пропонують відповідну функцію.

У першій статті циклу пояснюється порядок класифікації великих даних. У наступних статтях даного циклу розглядаються наступні теми.

Визначення логічної архітектури шарів і компонентів рішення для роботи з великими даними.
Розуміння атомарних шаблонів, що використовуються в рішеннях для роботи з великими даними.
Розуміння складових (або змішаних) шаблонів, що використовуються в рішеннях для роботи з великими даними.
Вибір шаблону рішення для роботи з великими даними.
Визначення "життєздатності" бізнес-завдання в термінах рішення для роботи з великими даними.
Вибір належних продуктів для реалізації рішення для роботи з великими даними.

Класифікація бізнес-завдань відповідно до типу великих даних

Бізнес-завдання можна розділити на категорії за типами великих даних. Надалі ми будемо використовувати ці типи для визначення відповідних шаблонів класифікації (атомарних або складових) і відповідного рішення для роботи з великими даними. Однак перший крок полягає у відображенні бізнес-завдання на відповідний тип великих даних. У цій таблиці наведено поширені бізнес-завдання, і кожної з них поставлений у відповідність певний тип великих даних.

Таблиця 1. Класифікація бізнес-завдань в сфері високих даних за типами

Бізнес-завдання Тип великих даних Опис Комунальні послуги: Прогнозування енергоспоживання Згенеровані машинами дані

Комунальні підприємства впровадили інтелектуальні лічильники, які вимірюють споживання води, газу і електрики з регулярними інтервалами (одна година або менше). Ці інтелектуальні лічильники генерують величезні ряди даних, які потребують аналізі.

Крім того, комунальні підприємства експлуатують великі, дорогі і складні системи для генерації енергії. До складу кожної енергомережі входять складні датчики, які контролюють напругу, струм, частоту і інші важливі робочі характеристики.

Щоб підвищити експлуатаційну ефективність, підприємству необхідно здійснювати моніторинг даних, що надходять від цих датчиків. Рішення для роботи з великими даними за допомогою інтелектуальних лічильників здатне аналізувати дані про виробництво електроенергії ( "пропозиція") і про її споживанні ( "попит").

Телекомунікаційні послуги: Аналіз відтоку клієнтів Дані з Інтернету і соціальних мереж
транзакційні дані

Для підтримки своєї конкурентоспроможності телекомунікаційним операторам необхідно створювати детальні моделі відтоку клієнтів, які враховували б дані з соціальних мереж і транзакційні дані (наприклад, CDR-дані).

Цінності конкретної моделі відтоку клієнтів залежить від якості атрибутів клієнтів (майстер-даних клієнтів, таких як дата народження, стать, місце проживання і дохід) і соціальної поведінки клієнтів.

Постачальники телекомунікаційних послуг, які реалізували стратегію предиктивної аналітики, здатні прогнозувати відтік клієнтів за допомогою аналізу закономірностей викликів, що здійснюються споживачами цих послуг.

Маркетинг: Аналіз сприйняття Дані з Інтернету і соціальних мереж

Маркетингові підрозділи використовують потоки повідомлень Твіттера для аналізу сприйняття з метою виявлення думки користувачів про компанії і про її продукти / послуги, особливо після виходу нового продукту / релізу.

Сприйняття клієнта повинна бути інтегрована з даними профілю цього клієнта з метою отримання "осмислених" (значущих) результатів. Зворотній зв'язок з клієнтами може змінюватися в залежності від їх демографічних характеристик.

Обслуговування клієнтів: Моніторинг викликів Згенеровані людиною дані

ІТ-підрозділу звертаються до рішень для роботи з великими даними з метою аналізу журналів додатків на предмет виявлення відомостей, здатних поліпшити функціонування системи. У додатків від різних постачальників файли журналів представлені в різних форматах; щоб ІТ-підрозділу могли використовувати ці файли, вони повинні бути попередньо стандартизовані.

Роздрібна торгівля: Персоналізована відсилання повідомлень на основі розпізнавання облич і даних з соціальних медіа Дані з Інтернету і соціальних мереж
біометричні дані

Підприємства роздрібної торгівлі можуть використовувати технологію розпізнавання осіб в поєднанні з фотографіями з соціальних мереж для звернення до клієнта з пропозиціями, персоналізованими на основі купівельної поведінки і позиціонування цього клієнта.

Ця можливість могла б надати величезний вплив на програми підприємств роздрібної торгівлі щодо підвищення лояльності, проте вона породжує серйозні наслідки з точки зору конфіденційності. Щоб реалізувати ці програми, підприємствам роздрібної торгівлі доведеться піти на розкриття конфіденційної інформації.

Роздрібна торгівля та маркетинг: Таргетування на основі мобільних даних і місцеположення Згенеровані машинами дані
транзакційні дані

Підприємства роздрібної торгівлі можуть звертатися до цільових клієнтам з конкретними промо-акціями і купонами на основі даних про місцезнаходження. Як правило, відповідні рішення проектуються для виявлення користувача після його входу в магазин або для моніторингу його поточного місцезнаходження за допомогою системи GPS.

Дані про місцезнаходження клієнта в поєднанні даними про його перевагах з соціальних мереж дозволяють підприємству роздрібної торгівлі конкретизувати онлайнові і проводяться в магазині маркетингові кампанії на основі купівельної історії цього клієнта. Повідомлення доставляються за допомогою мобільних додатків, SMS і електронної пошти.

Служби соціальної підтримки, охорону здоров'я: Виявлення шахрайства Згенеровані машинами дані
транзакційні дані
Згенеровані людиною дані

Рішення протидії шахрайству прогнозують ймовірність того, що дана транзакція або даний рахунок клієнта піддається зловмисному використанню. Ці рішення аналізують транзакції в реальному часі і генерують рекомендації для негайного вжиття заходів, необхідних для зупинки шахрайської діяльності сторонніх осіб, шахрайської діяльності власних співробітників і коректного використання клієнтами своїх повноважень.

Як правило, такі рішення проектуються для виявлення і запобігання численних типів зловживань і ризиків в декількох галузях.

Шахрайство з кредитними і дебетовими платіжними картами.
Шахрайство з депозитними рахунками.
Шахрайство з технічними засобами.
Безнадійні борги.
Шахрайство в охороні здоров'я.
Шахрайство з програмами Medicaid і Medicare.
Шахрайство з власністю і зі страхуванням від нещасних випадків
Шахрайство з компенсаційними виплатами працівників.
Шахрайство при страхуванні.
Шахрайство в телекомунікаційній сфері

Категоризація завдань великих даних за типами спрощує виявлення характеристик кожної з різновидів даних. Ці характеристики допомагають нам зрозуміти, як здійснюється отримання даних, як вони перетворюються в відповідний формат і з якою частотою з'являються нові дані. Дані з різних джерел мають різні характеристики; наприклад, дані з соціальних мереж можуть являти собою безперервно надходять відеоролики, зображення і неструктуровані тексти, такі як пости в блогах.

Ми оцінюємо дані по перерахованим нижче загальними характеристиками (які докладно розглядаються в наступному розділі).

Формат контенту.
Тип даних (наприклад, транзакційні дані, ретроспективні дані, майстер-дані і т. Д.)
Частота надходження нових даних.
Намір: яким чином дані планується обработивать (наприклад, за допомогою спеціалізованих запитів до даних).
Як буде виконуватися обробка - в реальному часі, в близькому до реального часу або в пакетному режимі.

Використання типу великих даних для класифікації характеристик великих даних

Корисно розглядати характеристики великих даних з певних аспектів - наприклад, яким чином здійснюється збір, аналіз і обробка даних. Після того як дані класифіковані, їх можна зіставити з відповідним шаблоном великих даних.

Тип аналізу - аналізуються дані в реальному часі або обробляються в пакетному режимі для подальшого аналізу. До вибору типу аналізу необхідно підходити обережно, оскільки він впливає на ряд інших рішень щодо продуктів, інструментів, апаратних засобів, джерел даних і очікуваної частоти надходження даних. Для деяких сценаріїв використання може знадобитися поєднання обох типів аналізу.
- Виявлення шахрайства: аналіз необхідно здійснювати в реальному часі або в близькому до реального часу.
- Аналіз тенденцій для стратегічних бізнес-рішень: аналіз можна здійснювати в пакетному режимі.
Методика обробки - спосіб, застосовуваний при обробці даних (наприклад, прогноз, аналіз, спеціальний запит, звітність). Вибір належної методики обробки визначається вимогами бізнесу. При обробці може використовуватися поєднання кількох способів. Можливість вибору методики обробки дозволяє підібрати найбільш підходящі інструменти і способи для використання в конкретному рішенні для роботи з великими даними.
Частота надходження і обсяги даних - скільки даних очікується і з якою частотою надходять ці дані. Знання частоти і обсягу дозволяє визначити механізм зберігання, формат зберігання і необхідні інструменти для попередньої обробки. Частота надходження і обсяги даних залежать від джерел даних.
- На вимогу (наприклад, дані соціальних медіа).
- Безперервний потік реального часу (погодні дані, транзакційні дані)
- Тимчасові ряди (контрольовані за часом дані).
Тип даних - тип даних, що підлягають обробці - транзакційні, ретроспективні, майстер-дані і т. Д. Знання типу даних допомагає диференційовано розподіляти дані в сховище.
Формат контенту - формат даних, що надходять - структуровані дані (наприклад, з реляційної бази даних), неструктуровані дані (наприклад, аудіо дані, відео та зображення) або напівструктуровані дані. Формат визначає, як повинні оброблятися дані, що надходять, і грає ключову роль при виборі інструментів і методів, а також при формуванні образу рішення з точки зору бізнесу.
Джерело даних - джерела даних (місце, в якому дані були згенеровані) - Інтернет, соціальні мережі, машинні дані, згенеровані людиною дані і т.д. Виявлення всіх джерел даних дозволяє визначити рамки проекту з точки зору бізнесу. На малюнку показані найбільш широко використовувані джерела даних.
Споживачі даних - список всіх можливих споживачів оброблених даних.
- Бізнес процеси.
- Бізнес-користувачі.
- Корпоративні програми.
- Індивідууми, які виконують різні бізнес-ролі.
- Фрагменти процесів.
- Інші репозиторії даних або корпоративні додатки.
Апаратні засоби - тип апаратних засобів, на яких буде реалізовано рішення для роботи з великими даними - масові апаратні засоби або найсучасніші апаратні рішення. Розуміння обмежень апаратних засобів дозволяє обгрунтувати вибір рішення для роботи з великими даними.

на Мал. 1 показані різні категорії для класифікації великих даних. Ключові категорії для визначення шаблонів великих даних позначені на малюнку синім кольором. Шаблони великих даних, що описуються в наступній статті, отримані за допомогою поєднання цих категорій.

Шаблони великих даних, що описуються в наступній статті, отримані за допомогою поєднання цих категорій

Висновок і подяки

В інших статтях цього циклу ми опишемо логічну архітектуру і всі верстви рішення для роботи з великими даними, включаючи отримання і споживання великих даних. Ми розглянемо вичерпний список джерел даних і представимо атомарні шаблони, які охоплюють всі важливі аспекти вирішення для роботи з великими даними. Потім ми розглянемо складові шаблони і пояснимо, як атомарні шаблони можуть поєднуватися в конкретних сценаріях використання великих даних. На завершення циклу ми розглянемо деякі шаблони рішень, в яких широко поширені сценарії використання зіставляються з конкретними продуктами.

Автори висловлюють подяку Ракеш Шинде (Rakesh R. Shinde) за рекомендації щодо побудови загальної структури цього циклу, а також за рецензування матеріалу і корисні коментарі.

Ресурси для скачування

Схожі тими

Оригінал статті: Big data architecture and patterns, Part 1: Introduction to big data classification and architecture .
Ознайомтеся з безкоштовна курсами по різнім темам (Основи Hadoop, Основи АНАЛІЗУ текстів, SQL-доступ для Hadoop, Потокові обчислення в реальному часі и т. Д) На сайті Big Data University .
відвідайте сайт Big Data Hub и вівчіть посилання на агентство найпопулярніші матеріали, Такі як: The four V's of big data (Чотири виміри великих Даних) и Top 5 big data use cases (Перша п'ятірка сценаріїв использование великих Даних).
В блозі пропагандиста великих даних Джеймса Кобеліуса (James Kobelius) висвітлюються різні теми - наприклад, де і коли представники наступного покоління фахівців з великим даними можуть отримати необхідні навички.
Блог Своні Толентино (Swanie Tolentino), менеджера по галузевому маркетингу і по маркетингу рішень, присвячений програмам підвищення лояльності клієнтів і тонкій грані між підгляданням за покупцем і розширенням його можливостей.
Блог Майкла Брюль (Michael Brulé) присвячений оптимізації функціонування нафтогазових підприємств відповідно до конкретних бізнес-цілями і прийняття конкурентоспроможних бізнес-рішень в нафтогазовій галузі.
В блозі фахівця з маркетингу Грема Ноузворті (Graeme Noseworthy) висвітлюються застосування рішень для роботи з великими даними, таких як системи IBM PureData і платформа IBM Big Data, для створення нових можливостей для колективної роботи і надання клієнтам більш комфортного середовища.
Блог Боба Палмера (Bob Palmer) розповідає про те, як великі дані можуть принести істотну і вимірну користь для бізнесу в банківському і фінансовому секторах.
відвідайте блог Business Analytics 3.0: Analytics as a service і ознайомтеся з такими статтями, як: Predictive analytics and wearable computing = personalized big data (Предиктивне аналітика і носяться обчислювальні засоби = персоналізовані більші дані) і Goldman Sachs: Big data is a disruptive theme (Goldman Sachs: великі дані - це революційна тема) .
Технічний огляд компанії McKinsey & Company Big data: The next frontier for innovation, competition, and productivity (Великі дані: наступний фронтир для інновацій, конкурентоспроможності та продуктивності) демонструє, як великі дані впливають на лідерів в кожному секторі.
завантажте редакцію InfoSphere Streams Quick Start Edition , Призначену для невиробничого застосування версію InfoSphere Streams - високопродуктивної обчислювальної платформи, що дозволяє швидко отримувати, аналізувати і зіставляти інформацію по мірі її надходження з тисяч джерел в реальному часі.
Багато додаткові продукти для роботи з великими даними доступні для завантаження у вигляді ознайомлювальних версій.
Знайдіть ресурси, які допоможуть вам розпочати роботу з InfoSphere BigInsights - аналітичною платформою на базі ПО з відкритим кодом Hadoop, яка доповнює його можливості такими функціями, як Big SQL, аналіз тексту і BigSheets.
завантажте продукт InfoSphere BigInsights Quick Start Edition , Який доступний у вигляді нативного установчого пакета або у вигляді образу VMware.
Ресурси, Які допоможуть вам розпочаті роботу з InfoSphere Streams - високопродуктивної обчислювальної платформою IBM, яка дозволяє призначеним для користувача додатків швидко приймати, аналізувати і зіставляти інформацію, що надходить з тисяч джерел в реальному часі.
завантажте продукт Download InfoSphere Streams , Який доступний у вигляді нативного установчого пакета або у вигляді образу VMware.
Оцініть продукт InfoSphere Streams на платформі IBM SmartCloud Enterprise .

Підпішіть мене на ПОВІДОМЛЕННЯ до коментарів

Com/developerworks/library/?

Статьи