par Neurones67 » 28 Fév 2011, 03:02
Le serveur qui nous héberge (Erevan2) est dans un sale état, depuis que j'y ai installé 9 nouveaux serveurs virtuels, il a de gros problèmes de gestion de la mémoire. Tous les soirs à partir de minuit, il a une charge qui dépasse les 70 (ça ne devrait pas dépasser 1 en temps normal). Ce qui provoque des ralentissements énormes (plus rien ne répond pendant quelques secondes/minutes).
Il a subit un redémarrage hier soir après 130 jours de fonctionnement en continu (:'(), qui a résolu temporairement le problème. Le problème s'est manifesté de nouveau ce soir, je l'ai résolu temporairement en ajoutant du swap, il est fort probable qu'il se reproduise à nouveau.
Je pensais d'abord à un problème dans le noyau Linux au niveau de la gestion de la mémoire (l'utilisation de machines virtuelles sous OpenVZ entraine l'utilisation d'un noyau spécial avec une gestion mémoire spécifique) et je pensais avoir résolu le problème en redémarrant le serveur avec un noyau à jour, Mais comme le problème s'est de nouveau manifesté, je pense maintenant à un problème matériel, d'autant que c'est le même kernel installé sur 6 autres machines que j'administre, et qui ont, eux, aucun soucis du genre.
L'augmentation de la charge ici n'est pas naturelle, l'utilisation de la RAM et du CPU est complètement normale, il semblerait qu'à un certain moment, le système refuse d'allouer plus de mémoire dans la RAM (vers les 5/12 Go), il cherche alors à en allouer ailleurs, dans la partition d'échange du disque dur, ce qui provoque une montée des niveaux d'Entrées/Sorties, le disque souffre. Au bout d'un moment, la partition d'échange (8Go) est saturée, alors le serveur n'arrive plus à s'en sortir...
Le refus d'allouer plus de RAM peut venir du fait que certaines barrettes de RAM installées sur le serveur (6x2Go je pense) sont défectueuses, le noyau refuse alors de les utiliser pour éviter la corruption de données (extrêmement dangereux).
Je vais voir demain avec Hetzner, notre hébergeur, si je peux pas faire un test des barrettes, un test qui va être long vu la taille de la mémoire sur Erevan (12Go) et qui nécessite de redémarrer le serveur dans un mode précis => Coupure du forum.
Pour le moment le serveur est stabilisé.