Sitecore Managed Cloudコンテナの監視


概要

Managed Cloudソリューションの監視は、以下のサービスから構成されています。

監視モデルについては、以下のインフラ図をご参照ください。

Grafanaでの認証

Grafanaは、Azure Active Directoryと統合されており、基本認証は無効化されています。「Microsoftでサインイン(Sign in with Microsoft)」認証オプションを使用し、Micrsoftの仕事用アカウントを使用する必要があります。
註: Grafanaへのアクセスは、特定のActive Directoryグループに対して設定されており、使用するアカウントは、このグループに加えられている必要があります。従って、サービス リクエストには、そのグループに加わっている特定のアカウントを含めることを意図する必要があります。

ダッシュボードにアクセスする

全てのダッシュボードを閲覧するには、Searchメニューにアクセスします。

Grafanaのダッシュボード

ダッシュボード

説明

 Container overview
(コンテナの概要)

 コンテナのNamespaceとPodの情報を含む、全てのコンテナの一覧。各コンテナの状態と、正常なコンテナや、問題が発生し停止したコンテナの総数を確認できます。

 Host Disk Overview (Linux only)
(ホスト ディスクの概要 - Linuxのみ)

 ノードのファイルシステムおよび、読み書きに要した時間、ファイルシステムの利用可能スペースなどのディスクI/Oメトリックを開示します。

 Host Disk Overview (Windows only)
(ホスト ディスクの概要 - Windowsのみ)

 ファイルシステムの利用可能なスペース。

 Ingress Overview
(Ingressの概要)

各SitecoreロールおよびGrafanaのIngressメトリック。

 Kubernetes Cluster
(Kubernetesクラスタ)

 クラスタのハイレベルの概要。

 Kubernetes Pod Overview
(Kubernetes Podの概要)

 システムを含む全てのnamespaceのPodごとのメモリおよびCPUリクエスト、制限、 利用率を開示します。ライブ ログで表示されます。

 Linux Node Overview
(Linuxノードの概要)

 各Linuxノードのメモリ・CPU・ディスク使用率の詳細情報。

 MsSql Elastic Pool

 MsSql Elastic Poolの使用率の詳細情報。

 Redis Server Overview
(Redisサーバーの概要)

 一般的なRedisメトリックを開示します。ネイティブなRedisの「INFO」コマンドと同様の機能です。

 Windows Node Overview
(Windowsノードの概要)

 各Windowsノードのメモリ・CPU・ディスク使用率の詳細情報。

アラート

説明

条件

リソース

期間

 Node statistic
(ノード統計)

 

 

 

 Memory percentage is >95%
(メモリの割合が95%以上)

 ノードのメモリの使用率が95%以上

K8s node

10分

 CPU percentage is >95%
(CPUの割合が95%以上)

 CPU使用率が95%以上

K8s node

10分

 Infrastructure
(インフラストラクチャ)

 

 

 

 Pod is not ready for 30m
(Podが30分間準備されていない)

 Podのステータスがreadyでない

K8s Pod

30分

 Kubelet is down
(Kubeletがダウン)

 「Kubelet」ジョブが直近15分間ダウンしている

K8s Job

15分

 Pod is restarting frequently
(Podが頻繁に再起動している)

 Podが少なくとも5分に1回再起動されている

K8s Pod

1時間

 Deployment generation mismatch
(デプロイメント世代のミスマッチ)

 デプロイメントが失敗しているが、ロールバックされていない

K8s deployment

15分

 Deployment replicas mismatch
(デプロイメントのレプリカのミスマッチ)

 デプロイメントが一時間以上、期待されるレプリカの数と一致していない

K8s deployment

1時間

 DaemonSet pods not ready
(DaemonSetのPodが準備されていない)

 全ての求められているPodのスケジュール・準備ができていない

K8s daemonset

15分

 DaemonSet pods not scheduled
(DaemonSetのPodがスケジュールされていない)

 全ての求められているPodがスケジュールされていない

K8s daemonset

10分

 DaemonSet pods misscheduled
(DaemonSetのPodのスケジューリングミス)

 DaemonSetのPodが、実行されないはずの場所(条件下)で実行されている

K8s daemonset

1時間

 CPU Throrrling is high
(CPUの高スロットリング)

 PodのCPUスロットリングが25%以上

K8s Pod

15分

 Warning events occured
(Warningイベントが発生)

 一つ以上のWarningタイプのイベントがnamespaceで発生した

K8s namespace

1時間

 Node is not ready
(ノードが準備されていない)

 ノードが準備されていない

K8s node

1時間

 Kubernetes version mismatch
(Kubernetesのバージョンのミスマッチ)

 異なるセマンティック バージョンのKubernetesコンポーネントが実行されている

K8s

1時間

 Kubernetes API server client is experiencing errors
(Kubernetes APIサーバーのクライアントでエラーが発生している)

 Kubernetes APIサーバーで1件以上のエラーが発生している

K8s

5分

 Node is running out of pods capacity
(ノードのPodの容量が枯渇寸前である)

 ノードのPodの容量が95%以上使用されている

K8s node

15分

 Disk space is used for > 90%
(ディスク スペースが90%以上使用されている)

 ノードのディスク スペースが90%以上使用されている

K8s node

1時間

 Sitecore roles
(Sitecoreロール)

 

 

 

 Http request is 5xx >10
(5xxのHTTPリクエストが10件以上)

 5xx HTTPレスポンスが10件以上発生している

nginx_ingress_controller

10分

 Average page response time > 1 second
(平均レスポンス タイムが1秒以上)

 平均レスポンス タイムが1秒以上かかる

nginx_ingress_controller

30分

 Average page response time > 30 seconds
(平均レスポンス タイムが30秒以上)

 平均レスポンス タイムが30秒以上かかる

nginx_ingress_controller

5分

 Availability tests are on /sitecore/service/keepalive.aspx
(/sitecore/service/keepalive.aspxでの可用性テスト)

/sitecore/service/keepalive.aspxでの可用性テストが失敗した

Sitecore pod

5分

 Redis Cache
(Redisキャッシュ)

 

 

 

 Average number of connected clients in % are > 80%
(平均接続済みクライアント数が80%以上)

 接続されているクライアントの数が、redis_config_maxclientsの80%以上

Redis Cache

30分

 The server load is >95%
(サーバー負荷が95%以上)

 直近30分間のRedisのプロセッサーの負荷の割合が95%以上

Redis Cache

30分

 MSSQL elastic pool

 

 

 

 Database throughput unit (DTU) is >95%
(データベース スループット ユニット(DTU)が95%以上)

 平均スループット ユニット(DTU)が95%以上

 

5分

 Storage percentage is >75%
(ストレージの割合が75%以上)

 平均ストレージ使用率が75%以上

 

5分

 CPU is >95%
(CPUが95%以上)

 平均CPU使用率が95%以上

 

5分

 SQL Databases Deadlock
(SQLデータベースのデッドロック)

 データベースがデッドロックされている

 

-

 Data IO percentage is >95%
(DataIOの割合が95%以上)

 平均データIO率が95%以上

 

5分

 Log IO percentage is >95%
(ログIO割合が95%以上)

 平均ログIO率が95%以上

 

5分

 Workers percentage is >95%
(ワーカーの割合が95%以上)

 最大ワーカー率が95%以上

 

5分

 Concurrent sessions supported by the DB tier is > 95%
(DB価格レベルでサポートされている同時セッション数が95%以上)

 同時セッション数がDBの価格レベルでサポートされている最大数の95%以上

 

5分

 Number of failed database connections > 5
(失敗したデータベース接続数が5件以上)

 直近5分間にデータベースへの接続が5回失敗している

 

5分

 Average In-Memory OLTP storage > 95%
(平均インメモリOLTPストレージが95%以上)

 平均インメモリOLTPストレージの使用率が95%以上

 

30分