『SREの知識地図』の著者を招いてお送りするSREの旅 Road2を開催しました

『SREの知識地図』の著者を招いてお送りするSREの旅 Road2

どうもどうも my-ztです。

先日、『SREの知識地図 - SREの旅 Road2』のオンラインイベントを開催しました。

今回のオンラインイベントでは、SREの知識地図 第2章著者である @chaspy_さんをゲストに お招きし、信頼性の定義(SLI/SLO)についてパネルディスカッションを行いました。

本ブログでは、そのオンラインイベントの一部(ほんの一部)を簡単にご紹介します!!

1. SLOは「判断の指標」である

近藤さんが担当された第2章は、SLA/SLO/SLIといった用語の定義から、エラーバジェットの活用、導入プロセスまでを網羅しています。

イベント冒頭、近藤さんはSLOの重要性について 「信頼性と機能開発のバランスにおけるジレンマを解消する指針」 ということを話していました。

かつてのSREの文脈では「エラーバジェットが尽きたら開発ストップ」という厳格なルールが注目されがちでしたが、現在では「状況に応じた行動を選択するための判断材料」として扱うモダンな考え方が主流になっており、本章にもその思想が反映されています。

2. 現場の「疲弊」から始まったSLO導入

パネルディスカッションでは、近藤さんが実際にSLOを導入した際のエピソードが語られました。導入のきっかけは、局所的なエラー発生時に明確な判断基準がなく、現場が都度対応し疲弊していたことだったそうです。

「どこを目指せばいいかわからない」という不安を取り除くためにSLOが必要だったとも話しており、当時の導入プロセスにおける学びとして、以下のポイントが共有されました。

  • パイロットチームでの成功体験

    • いきなり全体に導入するのではなく、小さなチームで先行導入し、成功事例を作ってから広げたことが有効だった。
  • 認知負荷を下げる:

    • エンジニアが自然にSLOを意識できるよう、「ダッシュボードで見られる」という可視化を徹底し、アクセスのハードルを極限まで下げた。

また、「今、当時に戻れるならどうするか?」という質問に対し、近藤さんが「組織が大きくなると合意形成が難しくなるため、もう少しトップダウンで進めても良かったかもしれない」と振り返っていたのが印象的でした。

3. 運用フェーズとAIの活用

運用が軌道に乗ると、開発チーム内でも「SLO未達=異常」という認識が当たり前になっていき、もしSLOが守れない場合は、「値が厳しすぎるので緩和する」か「原因を調査して改善する」かの二択であり、このサイクルを回すことこそが運用の本質ということも話されていました。

また、話題のAI活用については、「価値判断や合意形成といった本質的な難しさは人間が担うべき」としつつも、以下の領域でAIがサポーターになるとの見解が示されました。

  • CUJ(クリティカルユーザージャーニー)の候補出し
  • SLIの選定サポート
  • レポートの自動生成

などなど『SREの知識地図 - SREの旅 Road2』の一部をご紹介しました。

これから「SLI/SLOを導入したい」「SLI/SLOの見直しタイミングの勘所」など、アーカイブ動画の中でヒントが見つかるかもしれません。

続きはこちらから〜👇

🎥 アーカイブ動画はこちら

📩 次回のイベント通知を受け取りたい方はConnpassでフォローをお願いします〜

終わりに

引き続き、本を読むだけでは伝わらない各章の著者の思いを伝えていきたいと思います。

(👉SREの旅はまだまだ続きますよ〜)

ちなみに・・・次回の『SREの知識地図 - SREの旅 Road3』は2025年12月22日(月) 19:30〜開催します!

📅 イベント詳細・参加申し込みはこちら

次回は、SREの知識地図 第三章を執筆された @ryota_hnk さんをゲストにお招きし、モニタリングやオブザーバビリティについて深掘りしていきます!!!

今年最後の「SREの旅」、年末年始のサービスの信頼性向上のための気づきや学びがあるかもしれませんので是非ご参加ください〜🙏