Hadoop High Availability: опыт Badoo

Докладчик: Александр Крашенинников

Поток: «Highload Dev Conf»

Описание доклада:

Инфраструктура Hadoop – популярное решение для таких задач, как распределённое хранение данных и вычисления Map/Reduce на кластере. Хорошая масштабируемость и развитая экосистема подкупают и обеспечивают Hadoop’у прочное место в инфраструктуре различных информационных систем. Но чем больше ответственности возлагается на этот компонент, тем важнее обеспечивать его отказоустойчивость и high availability.
В докладе я расскажу про обеспечение высокой доступности компонентов Hadoop-кластера. Кроме этого, поговорю:

о «зоопарке», с которым мы имеем дело;

о том, зачем обеспечивать высокую доступность: точки отказа системы и последствия отказов;

средствах и решениях, существующих для этого;

нашем практическом опыте внедрения: подготовка, деплой, проверки.

Доклад будет наиболее полезен тем, кто уже использует Hadoop (для углубления своих знаний). Другой части аудитории доклад будет интересен с точки зрения обзора архитектурных решений, применяемых в этом программном комплексе.

О докладчике:

Руководитель DataTeam в компании Badoo.
Занимаюсь разработкой инструментов для обработки данных в рамках ETL и процессинга различного рода статистики, инфраструктурой Hadoop.
Опыт web-dev более 10 лет. Для достижения наилучших результатов не гнушаюсь использовать гремучие смеси из языков программирования (JAVA, PHP, Go), баз данных (MySQL, Exasol) и технологий распределённых вычислений (Hadoop, Spark, Hive, Presto).

Компания: «Badoo», Россия