Diagnostic harddisk

Un article de DocAstairs.

Etant donné la vetusté de certains matériels (principalement les vectra ayant servis à faire les différentes passerelles), il est interessant de pouvoir vérifier si les dysfonctionnements peuvent provenir des disques durs (le disque non scsi étant réputé pour leur non fiabilité).


Pour cela, il faut installer l'outil smartctl :

$ apt-get install smartmontools

Par defaut, le daemon n'est pas démarer. Pour cela, il faut éditer le fichier de conf /etc/default/smartmontools et de-commanter les lignes start_smartd=yes et smartd_opts="—interval=1800" :

$ vi /etc/default/smartmontools
Defaults for smartmontools initscript (/etc/init.d/smartmontools)
# This is a POSIX shell fragment
 # list of devices you want to explicitly enable S.M.A.R.T. for
# not needed if the device is monitored by smartd
# enable_smart="/dev/hda /dev/hdb"
 # uncomment to start smartd on system startup
start_smartd=yes

# uncomment to pass additional options to smartd on startup
smartd_opts="--interval=1800"


Puis lancer le daemon :

$ /etc/init.d/smartctl start


Ensuite, pour lancer le diagnostique du disque /dev/hda, il suffit de lancer :

$ smartctl -a /dev/hda

Les lignes signalant les erreurs sont :

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000e   066   055   025    Old_age   Always       -       165072535
  7 Seek_Error_Rate         0x000e   075   048   030    Old_age   Always       -       64921211281
195 Hardware_ECC_Recovered  0x001a   068   055   000    Old_age   Always       -       206858531

Plus les RAW_VALUE sont grandes, plus il y a d'erreurs qui ont été enregistrées.

IL peut être interessant aussi de vérifier la téméprature :

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
194 Temperature_Celsius     0x0022   039   054   000    Old_age   Always       -       39

ou encore l'âge du disque :

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  9 Power_On_Hours          0x0032   071   071   000    Old_age   Always       -       25675