Monitoring

Schéma de base

digraph "arch" {
  rankdir="LR"
  subgraph cluster_hypervisor {
    rankdir="TD"
    label="Hypervisor #1"
    "exporter1"[label="exporter"]
    subgraph cluster_machine1 {
     label="Service VM"
     "prometheus"
     "alertmanager"
    }
    subgraph cluster_machine2 {
     label="Service VM"
     "exporter2"[label="exporter"]
    }
    subgraph cluster_machine3 {
     label="Service VM"
     "exporter3"[label="exporter"]
    }
  }
  subgraph cluster_hypervisor2 {
    rankdir="TD"
    label="Hypervisor #2"
    "exporter4"[label="exporter"]
    subgraph cluster_machine4 {
     label="Service VM"
     "exporter5"[label="exporter"]
    }
    subgraph cluster_machine5 {
     label="Service VM"
     "exporter6"[label="exporter"]
    }
  }
    prometheus->alertmanager[color="red"]
    prometheus->exporter1[color=blue4]
    prometheus->exporter2[color=blue4]
    prometheus->exporter3[color=blue4]
    prometheus->exporter4[color=blue4]
    prometheus->exporter5[color=blue4]
    prometheus->exporter6[color=blue4]
    ood[label="Ops"]
    alertmanager -> ood[label="Notification"]
}

Description

L’architecture proposée se repose sur l’utilisation de Prometheus en remplacement de shinken dont l’avenir est perçu comme incertain. Prometheus sera mis en place avec un lancement d’alertes vers AlertManager, l’outil d’alerting livré avec prometheus.

prometheus fera le monitoring de toutes les machines et tous les services du cluster de management au travers d’exporteurs de statistiques. Dans le cas d’un portage d’une sonde de type nrpe, l’utilisation de l’exporteur nrpe_exporter peut être envisagé.

Les notification d’alertes se feront par mail.

En cas d’adhérences fortes avec une interface de type nagios, un nagios pourra être installé afin de garantir l’interfaçage avec le centre de calcul.

Un travail d’intégration aux systèmes existants et a venir est à prévoir.