Hoje por volta do meio-dia (bem perto da hora do backup), todos no escritório sentiram o acesso ao servidor, que tem o nome de oráculo, um pouco mais lerdo. Perguntei a todo mundo se alguém tinha se metido num loop infinito, consultas excessivas no banco de dados, qualquer coisa… e ninguém deu certeza. Perguntei de novo… e nada.
Então comecei a fazer algo: Um ssh no servidor, na esperança que um ps -aux fosse me mostrar o processo que estava consumindo muito recurso.
Conexão recusada
Mas o ssh não funcionou, retornando uma mensagem de erro do próprio ssh. Perguntei ao Valdeci o porquê, ele me disse que à s vezes o ssh poderia recusar quando a máquina estivesse muito ocupada… 1 e 2 minutos depois, nada ainda. Então foi a hora de ligar o monitor no servidor e ver qual era o problema. Nada funcionava. Dedo-off nele.
Desparafusamos o case e praticamente dava para fritar um bife em cima do HD. Procuramos por uma máquina fotográfica para capturar a cena do Valdeci segurando o servidor perto do ar-condicionado… mas ninguém tinha.
Nunca mais deu boot
Religamos o servidor, carregou o LILO, mas começaram a aparecer mensagens estranhas, subindo pela tela, uma variação de reiserfs_read_inode2: i/o failure occurred trying to find stat data. Google para ajuda, algumas mensagens em listas de discussões do desenvolvimento do kernel, uma menção no site do ReiserFS… no FAQ deles achei o problema:
Bad Sectors
Não quis acreditar, mas era possÃvel que o HD tivesse ido pro espaço. E tudo que eu fiz só confirmava o problema. O comando reiserfsck –check /dev/hda2 não rodava… reiserfsck –fix-fixable /dev/hda2 informava que o Superblock estava mal da pernas… reiserfsck –rebuild-sb /dev/hda2 também não rodava…. reiserfsck –rebuild-tree /dev/hda2 também não… 🙁
O que salvamos
Depois de nos certificarmos que havÃamos tentado tudo que era possÃvel (além dos comandos acima exploramos variações do fsck, entre outros), a solução foi carregar o Kurumin, montar o HD detonado, e explorar ele.
Não conseguÃamos acessar o diretório de fontes de sistema, mas os /home/s sim. Compactamos um a um e copiamos pra rede. Os fontes foram salvos porque o backup é feito em outro HD, que sobreviveu heroicamente. Foi só, também pelo Kurumin, montar ele e copiar os arquivos.
Tempo perdido na brincadeira: 7 horas. Arquivos perdidos: Não se sabe… mas foram apenas os novos ou modificados desde o último backup, um perÃodo de apenas 4 horas. É ruim perder coisas, e podemos melhorar nossos procedimentos (que o diga o Jonas), mas até que para o primeiro caso de pânico e necessidade de recuperar o backup da empresa, não foi tão mal.
Bem… é aquela história, se a vida te dá ovos, faça um omelete. 🙂
Leave a Reply
You must be logged in to post a comment.