Close

Příručka incidentů Atlassian

Přehled

Od týmů provádějících v dnešní době technické služby se očekává nepřetržitá dostupnost.

Pokud se vyskytnou potíže, ať se jedná o výpadek nebo nesprávnou funkci, je od členů týmu vyžadována okamžitá reakce a obnovení služby. Tento proces se nazývá správa incidentů a pro malé a střední podniky je do budoucna komplexní výzvou.

We want to help teams everywhere improve their incident management. Inspired by teams like Google, we've created this handbook as a summary of Atlassian's incident management process. These are the lessons we've learned responding to incidents for more than a decade. While it’s based on our unique experiences, we hope it can be adapted to suit the needs of your own team.

Caution alert exclamation point

Reakce na incident

Proces reakce a kroky prováděné v případě zjištění incidentu

Illustration of different kinds of charts

Analýzy incidentů

Jak provádět anonymní analýzy, identifikovat zdrojové příčiny a plánovat nápravné práce

Illustration of book with lightbulb above it

Přehled příručky k incidentům

Jaký je účel této příručky?

Pokud patříte k vývojovému nebo provoznímu týmu, který se stará o chod internetových služeb u zákazníků s nepřetržitou dostupností, je tato příručka určena právě pro vás.

Co je incident?

Pod pojmem incident rozumíme událost, která způsobuje narušení nebo omezení kvality služby a vyžaduje, aby byl proveden pohotovostní zásah. Týmy pracující podle postupů ITIL nebo ITSM mohou používat termín hlavní incident .

Incident je vyřešen ve chvíli, kdy u dotčené služby dojde k obnovení fungování v obvyklém rozsahu. Zahrnuje pouze úlohy potřebné k obnovení plného rozsahu funkcí. 

Po vyřešení incidentu se prování analýza incidentu, jejímž cílem je odhalit zdrojové příčiny a uskutečnit akce, které je dokážou odhalit předtím, než se incident bude opakovat.

Naše hodnoty týkající se incidentů

Proces správy incidentů nedokáže pokrýt veškeré možné situace, proto našim týmům poskytujeme obecný návod ve formě hodnot. Naše hodnoty týkající se incidentů se podobně jako hodnoty společnosti Atlassian zaměřují na následující body:

  • Napomáhat při autonomním rozhodování osob i týmů v rámci incidentů a při následných analýzách. 

  • Budovat mezi týmy konzistentní kulturu při identifikaci, správě a vyhodnocení zkušeností při řešení incidentů.

  • Poskytněte týmům jednotný návod, jak postupovat v daných částech identifikace, řešení a hodnocení incidentů.

Fáze Hodnota incidentu Odpovídající hodnota Atlassian Odůvodnění
1. Zjištění Atlassian má informace dříve než náš zákazník

Build with Heart and Balance

Vyvážená služba zahrnuje dostatečnou úroveň monitorování a signalizace, která odhalí incidenty, než je zaznamenají zákazníci. 

Nejlepší monitorování signalizuje problémy ještě předtím, než přeroste v incidenty.

2. Reakce Hlásit, hlásit, hlásit 

Hrát, jako tým

Nobody likes being woken up and we don’t take the responsibility lightly. But people understand that occasionally they will be woken for an incident where it turns out they aren't needed. What’s usually harder is waking up to a major incident and playing catch up when you should have been alerted earlier.

Nemáme vždy k dispozici všechny odpovědi, proto nikdy „neváhejte věc ohlásit“.

3. Obnova Nic se neděje, je třeba rychle uklidit Nestrašte zákazníka.

Zákazníka nezajímá, proč služba nefunguje, ale abychom ji dali co nejdříve do pořádku.

Nikdy neodkládejte co nejrychlejší řešení incidentu, aby se minimalizoval dopad na naše zákazníky. 

4. Poučení Vždy bez obviňování Open Company, No Bullshit Incidenty jsou součástí provozovaných služeb. Zlepšujeme služby tím, že udržujeme akceschopné týmy, nikoliv vzájemným obviňováním
5. Zlepšování Zabraňme opakování těch samých incidentů Be the change you seek

Identifikujte zdrojovou příčinu a změny, které zabrání dalšímu opakování celé třídy incidentů.

Stanovte si cíle, že zajistíte specifické změny v konkrétních termínech.

 

Potřebné nástroje

Zde popsaný proces správy incidentů využívá několik nástrojů, které jsou specifické pro Atlassian a v případě potřeby je možné je nahradit:

  • Sledování incidentů – každý incident je sledován jako požadavek Jira včetně následného požadavku vytvořeného ke sledování dokončení analýz (Atlassian používá výrazně upraveno verzi Jira Software před uvolněním Jira Ops).

  • Diskusní místnost – kanál pro komunikaci v reálném čase je základním nástrojem pro diagnostiku a řešení incidentů v rámci týmu.

  • Videokonverzace – u mnoha incidentů může při diskuzi o řešení pomoci týmová videokonverzace, jako například Blue Jeans.

  • Výstražný systém – nástroj jako je OpsGenie, umožňuje správu střídání a eskalací na zavolání.

  • Nástroj pro správu dokumentace – na dokumenty týkající se stavu incidentů a ke sdílení analýz na blogu používáme Confluence.

  • Stránka o stavu – informace o stavu komunikace s interními účastníky i zákazníky zveřejněné na stránce o stavu poskytují lepší informace všem zúčastněným.

Sledování incidentu

Každý incident je sledován jako požadavek Jira, včetně následného požadavku vytvořeného ke sledování dokončení analýz. Proces v této příručce se týká naší výrazně upravené verze Jira Softwaru, který inspiroval k vytvoření Jira Ops. Z toho důvodu proces neodpovídá přesně funkcím, které jsou nyní dostupné v Jira Ops.

Požadavky incidentů obvykle vytváří technici podpory v reakci na tiket od zákazníka nebo developeři, kteří vyhodnotí monitorovací výstrahu jako incident. Chtěli bychom všechny požádat, aby vytvářeli požadavky v případě pochybností a nikoliv až ve chvíli propuknutí problému.

V Jira používáme jednoduchý pracovní postup ke sledování incidentů ve fázi řešení a k záznamu veškerých důležitých akcí uskutečněných během řešení incidentu.

Správa incidentů

Každý incident má na starostnbspsprávce incidentu (IM), který má celkovou odpovědnost a oprávnění ohledně incidentu. Tato osoba je určena pověřenou osobou k řešení incidentu. Správce incidentu je oprávněn provádět libovolné akce potřebné k řešení incidentu včetně kontaktování libovolných pracovníků v organizaci a jejich zapojení do incidentu v zájmu co nejrychlejšího obnovení služby. 

Správce incidentu je role spíše než samostatná pozice. Výhodou definování rolí během incidentu je skutečnost, že umožňuje v případě potřeby osoby nahradit. V případě, že určitý pracovník zná postupy pro danou roli, může snadno tuto roli vykonávat u libovolného incidentu.

Máte k této příručce připomínky?

Skvělé! Připomínky můžete odesílat na adresu incident-handbook@atlassian.com, kde nám můžete sdělit své názory.

Caution alert exclamation point

Reakce na incident

Proces reakce a kroky prováděné v případě zjištění incidentu

Illustration of different kinds of charts

Analýzy incidentů

Jak provádět anonymní analýzy, identifikovat zdrojové příčiny a plánovat nápravné práce

Hledáte nástroj, který vám usnadní proces správy incidentů?