Tipps und Strategien zur Fehlersuche in VMware vSphere Teil 1 - Methodisch vorgehen

Fehlersuche in vSphere-Umgebungen

Bei der Fehler­suche in kom­plexen IT-Infra­strukturen muss man sich unab­hängig von Art, Tools-Chain und Her­steller eine strin­gente Methodik ange­wöhnen, um sich nicht zu ver­zetteln. Dazu zählen Top-Down- und Bottom-Up-Ana­lysen. Wie das in einer vSphere-Umgebung aus­sehen könnte, zeigt dieser Beitrag.

Nahezu alle IT-Infra­strukturen lassen sich in ver­schiedene Abstraktions­ebenen zerlegen. Selbst wenn man sich nur auf einer davon bewegt, wie etwa dem zugrunde­liegenden Netzwerk, lässt sich dieses in weitere Schichten aufteilen, deren Kenntnis im Rahmen des ISO/OSI-Modells auch bei der Fehlersuche hilft.

Beispiel für ein Netzwerkproblem

Ob man sich dabei am ISO/OSI-Modell mit seinen 7 Schichten oder dem Internet/DOD-Schichten­modell mit 4 Ebenen orientiert, ist gar nicht so entscheidend. Wichtig ist aber in jedem Fall beurteilen zu können, ob bei der Ursachen­forschung eine Top-Down-, Devide and Conquer- oder Bottom-Up-Analyse sinnvoller ist.

Reagiert beispiels­weise ein Web-Server nicht auf Anfragen auf Port 443, lässt sich aber per Ping erreichen (ICMP-Protokoll), dann braucht man den Fehler in Kenntnis des OSI-Modells nicht im Layer-2, etwa bei der Switch-Konfiguration zu suchen.

Schichten einer virtuellen Infrastruktur

Ähnlich verhält es sich in einer Virtua­lisierungs­infrastrukrur wie VMware vSphere. Hier können wir die vier funk­tionalen Ebenen physische Hardware, ESXi-Host, virtuelle Maschine und Anwendung bzw. Guest OS unterscheiden, wie folgende Abbildung zeigt.

Symptomatik

Die größte Schwierigkeit besteht nun darin, ein auftretendes Symptom einer Ursache zuzuordnen. Aufgrund der oben skizzierten Funktions­ebenen lässt sich diese nämlich nicht auf dem ersten Blick eindeutig ausmachen. Daher ist eine stringente Methodologie unbedingt einzuhalten. Eine solche könnte so aussehen:

  • Definieren des Problems
  • Identifizieren der Ursache
  • Lösung implementieren

Problem-Arten

Probleme wiederum lassen sich grob klassifizieren. Typische System­probleme sind etwa

  • Konfigurationsfehler
  • Ressourcen-Engpässe
  • Software-Bugs
  • Defekte Hardware
  • Netzwerk-Attacken

System­probleme können sich auf zahlreiche Aspekte auswirken, wie die Verwend­barkeit, Korrektheit, Zuver­lässigkeit oder die Performance. Dabei ist es aber leider häufig auf dem ersten Blick so, dass die Symptome das Problem selbst zu sein scheinen. Daher ist das Sammeln von Symptomen immer der erste Schritt zur Problem­behandlung.

Dabei ist zu beachten

  • Eine einzige Ursache wird von den Benutzern möglicher­weise in Form mehrerer Symptome gemeldet.
  • Die Unter­scheidung zwischen Symptomen und den Haupt­ursache eines Problems ist oft nicht einfach, aber zwingend erforderlich.

Hier weiterlesen

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.