Mein Homelab besteht aus preisgünstigen Consumer Komponenten. Insbesondere bei den SSD kommt es daher durchaus min. einmal pro Jahr zu einem Defekt, der den Austausch einer solchen Komponente notwendig macht.
Daher habe ich meine Hosts mit Hot-Swap Slots ausgestattet, um den Austausch im laufenden Betrieb ausführen zu können.
Nun, was passiert nun im vSAN beim Ausfall einer Kapazität Disk?
Der erste Schritt ist, dass vCenter dies bemerkt und im Skyline Health eine Meldung bringt:

Wenn wir nun auf das Disk Management schauen, sehen wir, dass vSAN in vorauseilendem Gehorsam die Disk bereits evakuiert hat:

Wir nun gilt es die Disk aus der Umgebung raus zu konfigurieren, indem wir, nachdem wir die fehlerhafte Disk markieren und danach auf „Remove Disk“ klicken. Da die Disk bereits evakuiert wurde, können wir im folgenden Requester „No data migration“ auswählen.
BTW: Im Cluster Performance Monitoring können wir sehen, wann die Disk ausgefallen ist:

Offenbar ist die Disk heute Nacht gegen 2 Uhr ausgefallen und vSAN hat die Daten direkt evakuiert.
Beim entfernen der Disk wird der Partition Table gelöscht und die diese wird aus der Disk Gruppe entfernt. Damit verschwindet auch der Fehler im Skyline Health. Ca. 10 Sekunden später ist sie weg und wir können die Disk entfernen. Wenn wir es komplett sauber machen wollen, kann die Disk noch auf dem Hosts abgehängt werden. Da kein Filesystem und keine Daten auf der Platte sind, ist dieser Schritt optional.

In meinem Fall ziehe ich die Disk einfach raus. Hilfreich ist es im Homelab, die Einschübe zu beschriften damit man nicht die falsche Disk raus zieht. Bei SAS oder kommerziellen Backplanes kann man die fehlerhafte Disk blinken lassen. In meinem Fall wurde das Licht der Platte automatisch auf dauerhaft gesetzt. Da die Daten evakuiert wurden und die Disk nicht mehr der Disk Gruppe angehört sind wir redundant und ein entfernen der falschen Disk würde als Ausfall erkannt werden.
Nachdem die Disk raus ist, meldet der Controller das Entfernen und die Disk verschwindet in der Host Übersicht. Wichtig ist, dass der SATA Port auf dem Mainboard auf Hot-Swap geschaltet wurde.
Nachdem die Disk getauscht wurde, machen wir auf dem Host einen kleinen Rescan der Disks, damit diese vom Host gefunden wird.

Anschliessend wechseln wir in das Disk Management und wählen „CLAIM UNUSED DISKS„. Die neue Disk erscheint und wird direkt als Kapazitätsdisk vorgeschlagen.

Mittels „CREATE“ wird sie die Position der alten Disk einnehmen. vSAN bemerkt die neue Kapazität und führt ein Rebalancing der Daten durch, damit die Disk direkt ins Spiel gebracht wird, wenn in den Advanced Options das automatische Reblancing ausgewählt und die neue freie Kapazität mehr als den dort angegebenen Schwellwert übersteigt.


Fertig. Easy-peasy… Kein Host Maintenance Mode, kein Reboot, kein Effekt auf die Produktion.
Der Workflow ist übrigens auch der selbe, wenn wir eine Disk niedrige Kapazität mit einer Disk höherer Kapazität ersetzen. Der Unterschied ist lediglich, dass man den Disk Inhalt vor dem Entfernen der Disk aus der Diskgruppe evakuieren kann (falls man den kurzen Zeitraum des Tausches seine Redundanz nicht verlieren möchte).
Comments