22-10-2011, 01:03 PM
Eine Hot Spare Platte springt immer dann für eine andere Platten in einem RAID-Verbund ein, wenn diese ausfallen sollte. Und das sofort und ohne manuellen Eingriff.
Ein Beispiel: Ein RAID-System mit 16 Festplatten, 15 Stück in RAID 5 und eine Hot Spare Platte. Fällt jetzt eine der 15 Stück im RAID aus, so übernimmt sofort die Hot Spare Platte. Jetzt werden die Daten der ausgefallenen Platte aus den RAID-Informationen der restlichen Platten berechnet und auf die Hot Spare Platte geschrieben. Je nach Größe der Platten kann dies schon mal einige Stunden dauern. Wichtig ist hierbei: Während dieser Zeit darf bei einem RAID 5 (oder RAID 10) keine weitere Platte ausfallen, sonst sind die Daten verloren. Also sollte man alles daran setzen, so schnell wie möglich wieder das RAID zu vervollständigen.
Im Internet kursieren vereinzeln Ratschläge, das man keine Hot Spare einsetzen sollte, sondern manuell die defekte Platte entfernen und dann eine neue Platte einsetzen soll. In diesem Tipp wird auch noch eine Sicherung der Daten vor dem Austausch empfohlen. Dagegen sprechen einige Dinge:
1. Man sollte auch ohne eine ausgefalle Platte eine Sicherung haben.
2. Eine Sicherung der Daten (Vollsicherung) kann einige Stunden in Anspruch nehmen. Und das alles mit einer hohen Belastung für die anderen Platten. Sollte während der Sicherung eine weitere Platte ausfallen, so sind die Daten meist verloren.
3. Schafft man noch erst die Sicherung und fällt dann beim Rebuild eine Platte aus, so müssen die Daten erst restored werden. Unter Umständen bedeutet dieses dann mehrere Tage ohne diesen Server.
4. Will man tatsächlich eine konsistente Sicherung hinbekommen, so dürfen während der Sicherung keine Daten verändert werden, der Server darf also nicht genutzt werden. Sicherlich nicht "unbedingt" praktikabel.
5. Bei diesem Tipp wird u.a. auch darauf hingewiesen, dass man genau prüfen soll, ob die Festplatten auch richtig verkabelt sind, also der Kanal der ausgefallenen Platte mit dem Steckplatz der Platte identisch ist. Dieses Problem lässt sich sehr einfach lösen: Die meisten Controller haben eine Funktion um eine bestimmte Platte anzeigen zu lassen. Hierzu wird die "aktivity LED" eingeschaltet. Hat der Controller diese Funktion nicht, so muss man nur Last auf die Platten bringen. Die Platte ohne "wildes Geblinke" ist die ausgefallene Platte (oder wenigstens eine nicht aus dem RAID und man hat eine zweite Chance).
Also was ist wichtig für die Praxis?
1. Mindestens eine Hot Spare Platte pro System / RAID.
2. Immer auf ein aktuelles Backup achten.
3. Das Log des Controllers überwachen.
4. Die defekte Platte erst dann tauschen, wenn das RAID wieder OK ist (falls man doch mal die falsche Platte erwischt, dann führt es nicht automatisch zum kompletten Datenverlust).
Auch noch mal zum Nachdenken, was ohne Hot Spare passieren kann: Am 24.12. fällt die erst Platte aus, am 03.01. kommt der Admin wieder ins Büro. Erst dann kann der Admin die Platte austauschen, ob das noch reicht? Möchten Sie das erleben? Laut Murphy fällt genau dann die zweite Platte aus ...
Ein Beispiel: Ein RAID-System mit 16 Festplatten, 15 Stück in RAID 5 und eine Hot Spare Platte. Fällt jetzt eine der 15 Stück im RAID aus, so übernimmt sofort die Hot Spare Platte. Jetzt werden die Daten der ausgefallenen Platte aus den RAID-Informationen der restlichen Platten berechnet und auf die Hot Spare Platte geschrieben. Je nach Größe der Platten kann dies schon mal einige Stunden dauern. Wichtig ist hierbei: Während dieser Zeit darf bei einem RAID 5 (oder RAID 10) keine weitere Platte ausfallen, sonst sind die Daten verloren. Also sollte man alles daran setzen, so schnell wie möglich wieder das RAID zu vervollständigen.
Im Internet kursieren vereinzeln Ratschläge, das man keine Hot Spare einsetzen sollte, sondern manuell die defekte Platte entfernen und dann eine neue Platte einsetzen soll. In diesem Tipp wird auch noch eine Sicherung der Daten vor dem Austausch empfohlen. Dagegen sprechen einige Dinge:
1. Man sollte auch ohne eine ausgefalle Platte eine Sicherung haben.
2. Eine Sicherung der Daten (Vollsicherung) kann einige Stunden in Anspruch nehmen. Und das alles mit einer hohen Belastung für die anderen Platten. Sollte während der Sicherung eine weitere Platte ausfallen, so sind die Daten meist verloren.
3. Schafft man noch erst die Sicherung und fällt dann beim Rebuild eine Platte aus, so müssen die Daten erst restored werden. Unter Umständen bedeutet dieses dann mehrere Tage ohne diesen Server.
4. Will man tatsächlich eine konsistente Sicherung hinbekommen, so dürfen während der Sicherung keine Daten verändert werden, der Server darf also nicht genutzt werden. Sicherlich nicht "unbedingt" praktikabel.
5. Bei diesem Tipp wird u.a. auch darauf hingewiesen, dass man genau prüfen soll, ob die Festplatten auch richtig verkabelt sind, also der Kanal der ausgefallenen Platte mit dem Steckplatz der Platte identisch ist. Dieses Problem lässt sich sehr einfach lösen: Die meisten Controller haben eine Funktion um eine bestimmte Platte anzeigen zu lassen. Hierzu wird die "aktivity LED" eingeschaltet. Hat der Controller diese Funktion nicht, so muss man nur Last auf die Platten bringen. Die Platte ohne "wildes Geblinke" ist die ausgefallene Platte (oder wenigstens eine nicht aus dem RAID und man hat eine zweite Chance).
Also was ist wichtig für die Praxis?
1. Mindestens eine Hot Spare Platte pro System / RAID.
2. Immer auf ein aktuelles Backup achten.
3. Das Log des Controllers überwachen.
4. Die defekte Platte erst dann tauschen, wenn das RAID wieder OK ist (falls man doch mal die falsche Platte erwischt, dann führt es nicht automatisch zum kompletten Datenverlust).
Auch noch mal zum Nachdenken, was ohne Hot Spare passieren kann: Am 24.12. fällt die erst Platte aus, am 03.01. kommt der Admin wieder ins Büro. Erst dann kann der Admin die Platte austauschen, ob das noch reicht? Möchten Sie das erleben? Laut Murphy fällt genau dann die zweite Platte aus ...