Курс
Введение в инженерию больших данных
Подробнее Принять участие

Курс «Введение в инженерию больших данных»

О курсе

В ходе курса вы узнаете о среде для работы с большими данными — Apache Hadoop, а также познакомитесь с двумя основополагающими компонентами фреймворка Apache Hadoop: HDFS — распределенной файловой системой, MapReduce - подходом для обработки большого объема данных.

Вы сможете узнать об основных компонентах экосистемы Apache Hadoop. Узнаете в чем отличие MapReduce от Yarn, и почему появился Spark.

Узнаем что полезного можно получить из интернета. В практической части курсы мы выкачаем данные из twitter, произведем их очистку и обогащение, а после визуализируем.

Программа курса

Разделы курса:

  1. Определения термина «Большие данные» (Big Data)

    1. Что такое Большие Данные

    2. Предпосылки появления технологий Big Data

    3. Характеристики Big Data

    4. Примеры

    5. Вызовы Big Data

    6. Особенности работы с большими данными

    7. Подходы к архитектуре Big Data систем

  2. Обзор экосистемы Apache Hadoop

    1. Базовые понятия

    2. Apache Hadoop

    3. История появления

    4. Возможности Apache Hadoop

    5. Экосистема Apache Hadoop

    6. Основные компоненты

    7. HDFS

    8. Принцип работы HDFS

  3. Распределенные вычисления

    1. Особенности распределенных вычислений

    2. Парадигма MapReduce

    3. Принцип работы MapReduce

    4. Пример MapReduce - счетчик слов в тексте

    5. MapReduce и YARN

  4. Apache Spark

    1. Введение

    2. Принципы работы Apache Spark

    3. Resilient Distributed Dataset (RDD): возможности и свойства

    4. Доступные операции над RDD

    5. Библиотеки Spark

  5. Получение данных

    1. Введение Flume

    2. Принцип работы

    3. Source

    4. Channel

    5. Sink

  6. SQL on Hadoop

    1. Hive

    2. Форматы хранения

    3. Компрессия

    4. UDF

  7. Визуализация данных

    1. Обзор способов визуализации

    2. Apache Zeppelin

    3. Cloudera Search (Solr + Hue)

  8. Прочие компоненты экосистемы Hadoop

    1. Sqoop

    2. Nutch

    3. Hbase

    4. Zookeeper

    5. Oozie

    6. Pig

    7. Impala

Практическая часть — анализ данных twitter

Результаты обучения

Студент будет знать:

  • Определение и характеристики Больших Данных (Big Data)

  • Архитектуру решений на основе Big Data

  • Что такое Apache hadoop

  • Что такое Hdfs и MapReduce

  • Различия в версиях MapReduce 1 и MapReduce 2

  • Что такое Spark

  • Основные компоненты экосистемы Hadoop

Студент научится:

  • загружать данные в Apache Hadoop

  • создавать Hive таблицы над json данными

  • обращаться к Hive таблицам из pySpark

  • выполнять обработку данных используя Spark

  • загружать данные в Cloudera Search

  • анализировать данные используя Cloudera Search

Темы курса

Cloudera Search
pySpark
Apache Hadoop
MapReduce
Hdfs
И это далеко не все!

Преподаватели

Андрей Ривкин
Андрей Ривкин
Начальник отдела по технологиям больших данных "ФОРС"
О преподавателе
Андрей Ривкин
Андрей Ривкин
Андрей Ривкин
Начальник отдела по технологиям больших данных "ФОРС"

Курсы

Введение в инженерию больших данных
  1. Новые технологии и практики в обучении
  2. Кейсы от ведущих экспертов мирового уровня
  3. Льготная цена при бронировании
Записаться на курс
Записаться на курс
 
 
Спасибо!
Ваши данные успешно отправлены.