
Bei vSphere HA muss der Master-Host die verschiedenen Ausfall-Szenarien zuverlässig erkennen, um angemessen auf die jeweilige Situation reagieren zu können. Dazu prüft der zuständige Algorithmus eine Reihe von Signalen und Kriterien, um einen versehentlichen Neustart von virtuellen Maschinen zu vermeiden.
Bei einem ausgefallenen Slave-Host (oder Master-Host) ist die Sache relativ klar, denn dann können und müssen die virtuellen Maschinen in jedem Fall auf einem anderen Host neu hochgefahren werden. Dies darf aber nicht passieren, weil nur die Taktsignale ausbleiben.
Dies könnte zu einer Split-Brain-Situation führen, wenn die Heartbeats nur wegen Problemen im Management-Netzwerk nicht ankommen, der Host aber noch lebt. In diesem Fall wäre es möglicherweise fatal, die VMs noch einmal auf einem anderen Host zu starten. Daher sollte das Management-Netzwerk möglichst redundant ausgelegt sein.
Fehler-Szenarien für Host-Monitoring
VMware hat darüber hinaus eine Reihe zusätzlicher Maßnahmen eingeführt, um die Erkennungssicherheit zu erhöhen. So besteht etwa die Möglichkeit, eine zweite Art von Taktsignalen zusätzlich über das Storage-Fabric auszutauschen (Datastore Heartbeats).
Erst wenn auch diese ausbleiben, ist die Wahrscheinlichkeit für einen Host-Ausfall (im Vergleich zu einem Netzwerkausfall) relativ hoch. Darüber hinaus gibt es noch so genannte Isolationsadressen, die im Ernstfall ge-pingt werden, um eine Netzwerk-Partitionierung von einer Host-Isolierung zu unterscheiden.
Folgende Tabelle, die aus dem frei zugänglichen vSphere-HA-Deepdive von Duncan Epping (dem federführenden Entwickler des Fault Domain Manager (FDM)) stammt, erläutert die Zusammenhänge.
Der HA-Status ist bei aktiviertem HA-Cluster im Normalfall Running, das heißt, die Network-Heatbeats (über den VMKernel-Adapter Management-Netzwerk) kommen an. Dann spielen alle weiteren Erkennungskriterien keine Rolle.
Kommen weder Network- noch Storage-Heartbeats an, aber der betreffende Host kann vom Master über dessen Management-Adresse gepingt werden, dann ist der FDM-Agent nicht aktiv und muss ggf. neu gestartet werden. Dies kann im Web-Client mit Hilfe des Kontextmenü-Eintrages Für vSphere HA neu konfigurieren erfolgen.