Агрегатор курсов
Программирование Тестирование Дизайн Маркетинг Аналитика Управление
Войти
Слёрм

Онлайн-интенсив "SRE"

ОНЛАЙН
90 000 ₽
Доступна оплата в рассрочку/кредит
в любое время
3 дня
сертификат
Перейти на сайт

Описание

На три дня вы погрузитесь в теорию и практику SRE: будете поддерживать сайт, состоящий из нескольких микросервисов.

Научитесь правильно распределять ограниченные ресурсы для обеспечения быстродействия, отказоустойчивости и доступности сайта для максимальной надежности, достаточной, чтобы были довольны пользователи.

На курсе вы будете

  • Строить .Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит, соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.
  • Ломать .Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной нагрузкой.
  • Чинить .Организуете работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Имитация реальных условий: восстановление работоспособности сервиса в условиях предельно ограниченного времени.
  • Изучать .Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.

Практика на интенсиве

  • Теория и практика применения SLI/SLO/error budget : формулирование показателей; когда «право на ошибку» исчерпано.
  • Практика проведения разбора полетов (post-mortem): ключевые вопросы, на которые стоит ответить; разбор инцидента без поиска виноватых (blameless-практики); выявление паттернов аварийных сценариев.
  • Практика эффективной ликвидации IT-инцидентов: алгоритм управления стрессом; взаимодействие между участниками инцидента; подход к коммуникации с пользователями, руководством, маркетингом и коллегами.
  • Практика построения надежных систем: мониторинг и алертинг; выбор надежной архитектуры и коммуникаций; graceful degradation, failure-injection, capacity planning; как справляться с перегрузками и предотвращать cascading failures.

Требования к участникам

  • Свободное владение Linux;
  • Любой язык программирования: уровень Junior;
  • GitLab: навыки автоматизации;
  • Prometheus: навыки мониторинга;
  • Kubernetes: навыки работы в кластере.

Для обучения необходимы:

  • SSH-клиент,
  • наличие Docker у себя локально,
  • текстовый редактор/IDE.

Если у вас нет навыков работы в Kubernetes, вы можете принять участие в предстоящих интенсивах База и Мега Kubernetes или пройти видеокурсы Kubernetes.

Спикеры курса

Иван Круглов

Staff Software Engineer в Databricks

Имеет опыт в enterprise компаниях по: 
  • распределенной доставке и обработке сообщений;
  • BigData и web-stack;
  • поиску;
  • построению внутреннего облака;
  • service mesh.

Павел Селиванов

Senior DevOps Engineer в Mail.ru Cloud Solutions

  • На счету десятки выстроенных инфраструктур и сотни написанных пайплайнов CI/CD
  • Сертифицированный администратор Kubernetes
  • Автор нескольких курсов по Kubernetes и DevOps
  • Регулярный докладчик на Российских и международных IT-конференциях

Артём Артемьев

Lead SRE в Inspectorio

Знает, как помочь команде встретиться с SLI и жить дружно 

Имеет успешный опыт в:

  • Инцидент-менеджменте и мониторинге сложных решений
  • Perfomance-тестировании и борьбе за каждый RPS

Отзывы

Отзывов ещё нет — станьте первым.

Похожие курсы

SkillFactory
Онлайн-интенсив в формате bootcamp по Python
онлайн
в любое время
Мы в соцсетях
ШколамБлогО сервисеОбратная связь
Политика конфиденциальностиПользовательское соглашение