Ich kam heute Morgen auch schon wieder nicht ins Forum rein. Irgendwas läuft doch da schon wieder nicht ganz richtig.
Gibt es Infos??
Klar gibt es Infos
Es stimmt, dass wir aktuell hin und wieder nicht erreichbar sind. "Hin und wieder" bedeutet konkret, dass vor zwei Wochen ein Ausfall war, vorgestern Nacht und heute früh ein kleiner Ausfall.
Die ersten beiden Ausfälle waren ungeplant. Dieses Forum läuft auf einer Virtualisierungsumgebung innerhalb einer virtuellen Maschine. Leider gibt es ein Problem, dass dafür sorgt, dass diese VM abstürzt und dabei das ganze Hostsystem mit in den Tot reißt. Dann hilft nur ein manueller Neustart des Hosts - das ist ein recht dramatischer Fehlerfall. Leider sind die üblichen verdächtigen, wie Speicherauslastung oder hohe CPU Load in diesem Fall unverdächtig. Ebenfalls gibt es in den Systemlogs keine Meldung. Das macht es etwas schwer hier gezielt vorzugehen und bedarf einiger Versuche das Problem zu lösen.
Erstmal aber das wichtigste, das Forum hier wird alle 2 Stunden völlig automatisiert gesichert, das funktioniert auch, da wir vor zwei Wochen als das Problem los ging, als eine der ersten Maßnahmen den virtuellen Server auf ein komplett neues und deutlich überperformantes Hostsystem umgezogen haben (20 Kerne, 64GB RAM). Dazu haben wir die Backup und Wiederherstellen Funktion genutzt.
Zum anderen haben wir heute früh weitere Arbeiten durchgeführt. Leider kann ich das nicht immer mit entsprechender Vorlaufzeit ankündigen, da wir das auch in unserer Freizeit machen und sich daher nicht so gut planen lässt. Jedesmal wenn wir Wartungsarbeiten durchführen stoßen wir ein manuelles Backup an, sodass auch hier es zu keinem Datenverlust kommt, sollte doch mal was schief gehen.
Konkret haben wir letzte Woche die Konfiguration der MariaDB angepasst, da es auffällig ist, dass MariaDB relativ lange zum Starten braucht und heute früh haben wir MariaDB, neben einigen anderen Systemen, auf die neuste Version gehoben. Das Startverhalten von MariaDB ist damit wieder normal. Aber aufgrund einer fehlenden Fehlermeldung im Vorfeld, kann ich erst Entwarnung geben, wenn der Absturz über längere Zeit nicht wieder auftritt.
Dennoch werden wir das System weiterhin beobachten und Verbesserungen weiterhin durchführen.
Ich bitte das zu entschuldigen, aber ich glaube auch, und das will ich durch den Beitrag transparent machen, geben wir uns gut Mühe den Betrieb dieses Forums weiterhin sinnvoll und ohne Datenverlust zu gewährleisten.