본문으로 바로가기

[Nutanix issue] DIMM 메모리 CECC error

category Nutanix 2021. 6. 9. 15:05

- DIMM CECC error 

메모리 교체가 필요해 보입니다. 

교체 하기 앞서 필요한 정보를 확인합니다. 

 

- 장애 알람 확인

서버 정보를 마스킹을 해놨지만 알람을 확인해보면 어떤 노드의 어느위치의 메모리 슬롯이 장애인지 확인 가능
P2-DIMMA2 확인

- 메모리 벤더 확인

 교체를 위해서는 사용하던 벤더와 같은 벤더로 변경하셔야합니다. 

 한 노드에 여러 벤더의 메모리를 섞어 사용하면 장애가 발생 할 수 있습니다.

 

 CVM # ncc hardware_info show_hardware_info

쭉쭉 내리다 보면 Memory 부분에 장애가 발생한 P2-DIMMA2 메모리 확인(교체 메모리는 삼성의 32G로 준비)

- 리소스 확인

  메모리를 교체하기 위해서는 해당 노드를 종료해야합니다.

  따라서 해당 노드에 있는 VM들이 다른 노드로 이동하게 되며, 이때 리소스가 충분하지 않으면

  이동이 실패하여 VM이 shutdown 될 수 있습니다.

  1. 메모리 여유 확인

  2. 스토리지 여유 확인

 

- CECC error , UECC error 

메모리 CECC error(Correctable Error-Correcting)

  • 말그대로 Correctable ECC error로 노드 재부팅시 Repair 가능(BIOS 42.300버전부터 기능 제공)
    RAS 기능 – CECC 한정 메모리 장애로 인하여 노드가 재부팅되는 것을 막는 기능
    재부팅시 repair 되지않았을 경우에는 바로 RMA 처리가 가능하여 메모리 교체 진행

메모리 UECC error(Uncorrectable Error-Correcting)

  • UECC는 발생하면 언제 노드가 재부팅될지 모르며, Uncoortable error이기 때문에 바로 RMA를 진행하고 교체하라고 합니다.

문제는 CECC발생시 방치해둘 경우 UECC로 바뀐다는 점인데

UECC로 바뀔 시 노드가 언제 재부팅될지 모르기 떄문에 위험하여 해당 알람이 발생되면 최대한 빨리 작업하는 것을 권장합니다.

'Nutanix' 카테고리의 다른 글

[Nutanix] CVM 시간 동기화  (0) 2021.06.11
[Nutanix Network] VLAN 추가 하는 방법  (0) 2021.06.09