# Управление инцидентами
# Описание
Управление инцидентами – минимизация негативного воздействия внезапных перерывов в обслуживании или снижений качества продукта путём восстановления нормальной работы продукта в кратчайшие сроки.
# Почему важно управление инцидентами?
Управление инцидентами помогает:
- Влиять на восприятие продукта, его качества и формировать ожидания.
- Рационально использовать ресурсы при решении, ранжируя инциденты по степени влияния на продукт:
- Инцидентами с незначительным воздействием нужно управлять рационально, чтобы они не потребляли слишком много ресурсов.
- Инциденты с более серьёзным влиянием на продукт требуют большего объёма ресурсов и более сложного управления.
- Для управления крупными инцидентами, а также для управления инцидентами информационной безопасности часто используют отдельные процессы.
- Информировать заинтересованные команды и специалистов о состоянии затруднений при эксплуатации продукта.
- Обеспечить эффективность взаимодействия команд при работе над инцидентами с помощью инструментов общения.
- Предотвращать повторение инцидентов, благодаря информации накопленной в ходе решения предыдущих инцидентов.
- Обеспечить своевременный выбор методики решения инцидента:
- Последовательные процедуры восстановления по готовой методике.
- Привлечение команды со знаниями и опытом в конкретной предметной области.
- По методу коллективного анализа под названием "Рой", когда на начальном этапе подразумевается совместная работа нескольких команд разных компетенций, пока не выяснится, кому лучше всего продолжить работу над решением.
# Что будет, если не управлять инцидентами?
- Негативное восприятие продукта:
- Повторяющиеся проблемы при эксплуатации продукта.
- Длительные сроки восстановления после сбоев.
- Отсутствие заготовленного временного решения-костыля для минимизации негативного влияния на продукт во время поиска окончательного решения.
- Нерациональное использование ресурсов при решении:
- Многократное повторение процесса поиска решения, которое уже было ранее найдено при решении предыдущих инцидентов из-за отсутствия накопленной структурированной информации по ранее решённым инцидентам.
- Использование недостаточных ресурсов для попытки решения крупных инцидентов.
- Задействование массивных и дорогих ресурсов при решении незначительных инцидентов.
- Невозможность решения некоторых инцидентов вовсе:
- Отсутствует индивидуальная для конкретного продукта методика решения.
- Нет связующей информации о компетенциях команд подходящих для решения сложного инцидента.
# На кого может быть делегировано управление инцидентами?
Управление инцидентами подразумевает привлечение широкого круга участников процесса, включая команды специалистов, пользователей, руководство, юристов, поставщиков и сторонние организации, если в части продукта задействованы их услуги.
# Примеры поведения
# Примеры плохого поведения
- Несвоевременное и недостаточно полное внесение информации о ходе решения инцидента или не внесение такой информации вовсе приведёт к нерациональному решению аналогичных инцидентов в будущем или даже к невозможности решения
- Отсутствие ранжирования инцидентов по тяжести и степени влияния на продукт
- Выбор неэффективного метода решения сложного инцидента, если не подошла ни одна из ранее описанных процедур, без привлечения команды с соответствующей компетенцией, поддержки поставщика или коллективного анализа, при необходимости.
- Фокус на поиске виновного.
# Примеры хорошего поведения
- Использовать подходящий инструментарий для управления инцидентами: с содержанием в записях об инцидентах блоков и ссылок с описанием влияния на компоненты конфигурации продукта, связанных проблем, известных ошибок и другой информации, чтобы обеспечить быструю и эффективную диагностику и восстановление.
- Подключить к работе над инцидентами специалистов поддержки поставщика, в случае необходимости. Заранее подготовить соответствующие пункты контрактов.
- Инициировать создание, использование, постоянное и качественное заполнение справочной системы для возможности решения инцидентов самим пользователями в момент возникновения.
- Формализовать процесс регистрации и управления инцидентами, чтобы обеспечить повышение эффективности исследования и диагностики инцидентов.
# Практика
Начать внедрение управления инцидентами следует с обязательной фиксации каждого инцидента и внесения подробной информации с описанием хода решения, так появится возможность накапливать базу знаний и связывать части информации и быстро находить нужное в ранее решённых инцидентах, тем самым увеличивая скорость решения и снижая негативное влияние на продукт. С ростом продукта следует формализовать процедуры работы с инцидентами для одинакового восприятия информации и предпринимаемых действий всеми вовлечёнными командами — так возможно объединение совершенно разных команд с различными компетенциями для слаженной работы над инцидентами.
# Теория
# Книги
- ITIL 4 Foundation, 2019
- Digital Swarming “The Next Model for Distributed Collaboration and Decision Making”, Cisco Internet Business Solutions Group (IBSG), 2008
- Intelligent Swarming: A Framework for Collaboration, 2019
- Site Reliability Engineering: How Google Runs Production Systems (главы 14 и 15)
- John Allspaw. Blameless PostMortems and a Just Culture - оригинал,перевод