メンテナンス  

システムを安定運用させるためには、現状のシステム状態を素早く正しく把握し、適切なアクションにつなげるための監視プロセスが必要不可欠です。Google Cloud では安定したシステム運用をサポートするための監視ソリューションがいくつか提供されています。これらを適切に選択し、各ワークロードに適したサービスレベルを維持することが重要となります。

最初に、システムを安定運用させるために、監視対象を何にすべきか特定することが重要です。

近年、監視対象の整理にあたって、 SLO ( Service Level Objective ) を用いた監視設計が注目されています。ここで SLO の詳細については述べませんが、SLO を重視する理由は、サービスレベルを定義しないと、お客様がサービスを快適に利用できているかを測定することが困難であるためです。サービスを改善できることがわかっていても、サービスレベルを定義していないと、改善のために何にいくら投資するかを決定することは難しくなります。 ( SLO についての詳細は参考資料や、SRE ブックをご覧ください)

また、SLO を満たすか否かを決めるために指標が必要となりますが、それを SLI ( Service Level Indicator ) と呼びます。SLI はワークロードのサービス特性等によって測定すべき指標が異なることが多いですが、代表的なパターンを以下記載します。

デザイン パターン詳細

監視 パターン

解決する課題・使い所

単に監視といっても、ドメインデータを基にビジネス部門で行う監視、システム稼働データを基にシステム部門で行う監視など、その主体によって意味合いが異なりますが、今回はシステム部門の方向けの監視について述べます。

また、システム部門の方が行う監視についても、システムインフラの状態を把握するためのリソース監視やログ監視、アプリケーションの状態を把握するためのエラー監視やパフォーマンス監視など様々な対応要素が含まれます。本項では、 Google Cloud の監視ソリューションとして、これらインフラ、アプリケーションの監視をサポートする Google Cloud のオペレーション スイート (旧称 Stackdriver )について述べます。これらのソリューションで以下のポイントを解決することができます。 


インフラの監視


アプリケーションの監視


アーキテクチャ

ここでは、インフラ、アプリケーションを監視するための Google Cloud のオペレーションを用いたアーキテクチャについて述べます。Google Cloud のオペレーション スイートには高度な監視機能、複数環境の統合的な管理機能および、 PagerDuty など他のサービスとの連携機能を持つ、といった特徴があります。 

以下、インフラの監視、アプリケーションの監視それぞれのリファレンスアーキテクチャを示します。

※監視パターンは、監視対象や監視が必要な指標など、どのような監視シナリオを実現したいかによって、ほぼ無限にパターンを表現できるため、ここでは様々なシナリオを実現するにあたり役立つ、各ソリューションの機能の説明にフォーカスします。 サンプルシナリオに沿った各機能の利用イメージは、後述する Sample Config セクションにて、いくつかの例を紹介させて頂きます。


インフラの監視


アプリケーションの監視


利点

ここまでに記載した Google Cloud のオペレーションの機能を利用することで、システムのインフラ面、アプリケーション面の監視を効率化できます。Google Cloud のオペレーションはオンプレにて従来利用されてきた、運用監視ツールの単純代替ではなく、クラウドネイティブなシステム設計を前提とする監視ツールですが、従来の監視設計を基軸としつつ、Google Cloud のオペレーションを利用して、冒頭記載した SLO をベースとした監視設計の考え方を新たに取り入れることで、開発チーム / 運用チーム間の連携をよりスムーズにすることができます。 


注意事項

Google Cloud のオペレーション各機能で収集した監視情報は、デフォルト設定の場合、保存期限があります。恒久的に監視情報を保存する必要がある場合は、各サービスに用意されているログエクスポート機能を利用する必要があります。また、Google Cloud のオペレーションの SLA の適用範囲は、 2020 年 10 月時点で限定されていため、利用の際にはご留意ください


サンプル コンフィグ

オペレーション スイートの利用シーンは多岐にわたり、その全てを記載することが難しいため、ここでは最も基本的な使用ケースの一つである、 ( 1 ) 死活監視設定および、( 2 ) Cloud Monitoring 指標を用いたワーカーインスタンスのオートスケール設定、を例に Sample Config を記載します。その他、利用ケースごとの設定については、 ウェブ上に多数ある Google Cloud 公式ドキュメントを参照ください


このパターンで作成された事例


関係するデザインパターン


参照ドキュメント