La salud de tus discos duros en Internet.

Los discos duros que tenemos en casa se estropean y eso que no dejamos los ordenadores encendidos… Los  discos duros de los servidores necesitan aún más mantenimiento…

Fuente: http://www.flickr.com/photos/jpockele/
Fuente: http://www.flickr.com/photos/jpockele/

Los discos duros empleados en los servidores en Internet son versiones preparadas a una mayor estabilidad de servicio ya que se mantienen más tiempo encendidos y las lecturas y escrituras se multiplican al ser un contenido consultado en cualquier momento en la red: Discos duros en versión “server”. (mucho más caros que los de cualquier PC)

Todos los discos duros acaban por estropearse con el tiempo por lo que se debe revisar en los servidores su estado y para ello una herramienta indispensable para descubrir si se inicia el degradado del servicio y hay riesgo a perdida de datos es el comando Smartctl (soportado por la mayoría de los discos duros actuales) del paquete SmartTools.

Antes de nada, es indispensable que cuando tengamos un proyecto en Internet pongamos al menos dos discos duros idénticos y en RAID (Raid 1 si hay 2 discos duros) para que tengamos en dos discos una copia en ambos por si fallan.

En AGENCIA LA NAVE siempre vigilamos los servidores para que no sea demasiado tarde y que ya no podamos recuperar los datos porque ambos discos duros han dejado de funcionar correctamente.

La herramienta SmartCtl va a permitir acceder a datos estadísticos de los discos duros y descubrir si en algún momento puntual ha fallado algún disco duro y ha indicado errores en sectores o lecturas demasiado lentas u otro tipo de problema:

fdisk -l

smartctl -a -d ata /dev/sda

smartctl -a -d ata /dev/sdb

cat /proc/mdstat

Es importante guardar los resultados en un fichero para su posterior análisis.

smartctl1

Si el disco duro está en buenas condiciones, debería darnos un resultado como el de la imágen superior “completed without error”; en caso de errores encontraremos mensajes como “Completed: read failure”, indicando el tipo de problema y con recomendaciones bastante inquietantes…

“SMART overall-health self-assessment test result: FAILED! Drive failure expected in less than 24 hours. SAVE ALL DATA.”

Una buena práctica para proteger los datos de los servidores puede implicar instalar un CRON (proceso de fondo automáticamente ejecutado a una hora o con cierta frecuencia) para comprobar el estado de los discos, ejecutar el test en un horario de poco uso, y analizar el resultado mediante un comando “smartctl -a -d ata /dev/sda > analizar.txt“.

La experiencia de nuestra empresa os garantizará una mayor tranquilidad y por ello os vamos a contar un par de puntos esenciales :  (1) Mediante el comando “dmesg” revisar si hay errores físicos que impliquen una investigación de un técnico especializado.

erroresdmesg

El (2) punto a tener en cuenta es que al usar un RAID software se podrían producir problemas de uso excesivo de CPU sin observar errores ni en el smartctl ni en el dmesg debido a diferencias en la velocidad de ambos discos duros configurados en el RAID.

A continuación un resultado de que demuestra que para el RAID se debe reemplazar el disco /dev/sdb que va más lento que el primero. Por supuesto dicha operación debe hacerse en modo rescate (rescue).

discosnosincronizados

Y ahora un resultado correcto que permite descubrir que la velocidad de transferencia es similar y por lo tanto el RAID por software no genera un uso de CPU superior.

discoscorrectos

 

Para finalizar indicar que gracias a los comandos SMART podemos descubrir la antigüedad de los discos duros y el tiempo total de uso, siendo a día de hoy complicado trucar dicha información.

datosdisco

¿Entiendes por qué no debes contratar un servidor en Internet sin una gestión adecuada? Consultanos sin compromiso para garantizar que tu proyecto siempre este disponible y al mejor precio.

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *