Sub-Process
インシデント管理
インシデント発生時のトリアージ・根本原因分析・復旧対応・再発防止を行うフェーズ。オンコール体制の管理とエスカレーション、ポストモーテムによる継続的改善を含む。
デプロイ・運用MTTR: 数時間〜数日 → 目標: 分単位
AI進化方向性
AIエージェントが障害を自動検知し、ランブックに基づく修復手順を自律実行。ログ・メトリクス・トレースの横断分析によるRCAを数分で完了し、予測モデルがインシデント発生前に予防策を自動提案。
ロール
- SRE
- DevOpsエンジニア
ツール
- PagerDuty AI— AIインシデント管理・レスポンス
- Kubiya— クラウドネイティブDevOps向けAI