Entendiendo los valores S.M.A.R.T. de los discos duros ~ Mundo NAS

viernes, 30 de agosto de 2013

Entendiendo los valores S.M.A.R.T. de los discos duros

8/30/2013 02:08:00 p. m. Shibabcn 2 comments

En varias ocasiones ya he mencionado la tecnología S.M.A.R.T. (Self Monitoring Analysis and Reporting Technology) de los discos duros y que quizás ya conozcas, en caso contrario es más que recomendable que le dediques unos minutos para leer esta entrada y entender qué es y cómo funciona, y de paso cómo puede salvarte de la catástrofe de perder un disco duro y los datos que en él residan..

S.M.A.R.T. es una tecnología que monitoriza el funcionamiento del disco y va recopilando valores que superada una tasa de errores en ciertas acciones nos da a entender la próxima falla del disco duro. Para poder acceder a esta información se requiere que el disco duro lo admita (los discos actuales lo soportan), debe ser compatible con los sistemas BIOS/Open Firmware/EFI y además estar activado, lógicamente.

Mientras S.M.A.R.T. está en funcionamiento (no repercute en el rendimiento del disco) se van registrando valores como velocidad de los platos internos, errores de calibración y CRC, sectores defectuosos que se van generando, temperatura del disco y un largo etc. Toda esta información se registra en una escala comprendida entre 1 y 253, generalmente a mayor valor mejor estado del disco, y se ofrece en los siguientes valores:

Value (Valor): Valor de un atributo determinado
Threshold / Warning (Umbral): Es valor el límite que puede alcanzar el atributo, si el registro de Value es menor a este valor se considera que se están recogiendo un número de errores más alto de lo normal y que predicen un próximo fallo físico del disco.
Worst (Peor): Es el peor valor recogido por el atributo durante su funcionamiento

ID/Hex	Atributo	Descripción
1/01	Raw Read Error Rate	Frecuencia de errores en una lectura RAW desde disco.
2/02	Throughput performance	Eficiencia media del disco duro.
3/03	Spin up time	Tiempo necesario para girar.
4/04	Start/Stop count	Número de inicios y paradas del eje del disco.
5/05	Reallocated sector count	Cantidad de sectores remapeados por defectos.
6/06	Read channel margin	Reserva de canales en operaciones de lectura.
7/07	Seek error rate	Frecuencia de errores en posicionamiento.
8/08	Seek timer performance	Eficiencia media de operaciones de posicionamiento.
9/09	Power-on hours count	Número de horas transcurridas en funcionamiento.
10/0A	Spin retry count	Número de intentos de giro.
11/0B	Calibration retry count	Número de intentos de calibración del dispositivo.
12/0C	Power cycle count	Número de eventos de encendido.
13/0D	Soft read error rate	Frecuencia de errores de lectura vía software.
191/BF	G-sense error rate	Frecuencia de errores como resultado de impactos internos.
192/C0	Power-off retract count	Número de eventos de apagado.
193/C1	Load/Unload cycle count	Número de ciclos Load/Unload.
194/C2	HDA temperatura	Informativo. Muestra la temperatura del disco.
195/C3	Hardware ECC recovered	Número de errores recuperados on-the-fly (En discos MAXTOR).
196/C4	Reallocation count	Número de operaciones de remapeado.
197/C5	Current pending sector count	Número de sectores inestables (esperando por remapeado).
198/C6	Offline scan uncorrectable count	Número de errores sin corregir.
199/C7	UDMA CRC error rate	Número de errores de CRC durante modo UltraDMA.
200/C8	Write error rate	Frecuencia de errores en operaciones de escritura.
201/C9	Soft read error rate	Número de errores al intentar acceder a la pista siguiente.
202/CA	Data Address Mark errors	Número de errores de Marca de datos (DAM).
203/CB	Run out cancel	Número de errores de detección de memoria.
204/CC	Soft ECC correction	Número de errores corregidos por un software de detección de errores.
205/CD	Thermal asperity rate (TAR)	Número de errores de temperatura.
206/CE	Flying height	Altura de las cabezas sobre la superficie del disco.
207/CF	Spin high current	Cantidad más alta actual para girar el dispositivo.
208/D0	Spin buzz	Número de rutinas para girar el dispositivo.
209/D1	Offline seek performance	Rendimiento de búsqueda durante operaciones de apagado.
220/DC	Disk shift	Cambio de disco.
221/DD	G-sense error rate	Número de errores como resultado de impactos detectados.
222/DE	Loaded hours	Número de horas en estado operacional.
223/DF	Load/unload retry count	Carga causada por operaciones de recurrencia (lectura, grabación, posicionamiento, …).
224/E0	Load friction	Carga causada por la fricción mecánica.
225/E1	Load/Unload cycle count	Número total de ciclos de carga.
226/E2	Load-in time	Tiempo de carga en disco.
227/E3	Torque amplification count	Cantidad de rotaciones.
228/E4	Power-off retract count	Número de eventos de apagado.
230/E6	GMR head amplitude	Amplitud de las cabezas (GMR-head).
231/E7	Temperature	Temperatura de la unidad.
240/F0	Head flying hours	Tiempo transcurrido en operaciones de posicionamiento.
250/FA	Read error retry rate	Número de errores en operaciones de lectura.

En un Synology puedes consultar los valores SMART de cada disco en el Administrador de Almacenamiento / Administración de Disco Duro / S.M.A.R.T:

Es importante vigilar siempre los valores S.M.A.R.T. de nuestros discos duros sean internos de un ordenador o trabajen en un NAS, puesto que nos ayudará a hacernos una idea de cuando un disco deja de ser fiable o cuando puede ser posible que falle.