什么是机器检查异常(Machine Check Exception)?

什么是机器检查异常(Machine Check Exception)?

联想服务器学习笔记一

一 名词解释:

RSA: Reliability, availability and serviceability 新的可靠性,可用性和可维护性

MCA: Machine Check Architecture 机器检查架构:CPU将硬件错误报告给操作系统

MCE: Machine Check Exception 机器检查异常

CMCI: Corrected Machine Check Interrupt 可纠正的机器检查中断

IMC:集成内存控制器

二:MCE中最常见的4种错误

  • 1、内存错误或纠错码(ECC)问题
  • 2、CPU温度高/散热问题
  • 3、系统总线错误
  • 4、处理器或硬件中的缓存错误

三:MCE错误类型

  • Corrected Error (CE): 硬件能纠正的错误
  • Uncorrected Error (UC): 硬件不能纠正此错误,os不能继续运行
  • Uncorrected Recoverable Error (UCR): 未更正的可恢复错误
    • Software Recoverable Action Required (SRAR): 检测到错误,并且处理器已经占用了内存。 建议系统重启
    • Software Recoverable Action Optional (SRAO) : 内存中的某些数据已损坏。 但是尚未消耗数据,系统可以执行恢复操作。
    • Uncorrected No Action Required (UCNA) : 内存中的某些数据已损坏,但尚未消耗掉,系统可能会继续运行

四:MCE的特征

4.1 MCA Recovery

新的英特尔至强可扩展系列处理器支持基于MCA的恢复机制,从某些内存错误中进行恢复。 这要求操作系统将内存页面声明为“这个东西有毒!”,并终止与该页面关联的进程,并避免以后再使用该页面。

MCA机制用于检测,发信号和记录机器故障信息。 这些故障中的一些是可以纠正的,而另一些是无法纠正的。 MCA机制为了帮助CPU设计人员和CPU调试人员诊断,隔离和了解处理器故障。 帮助系统管理员检测在服务器长期运行期间遭受的短暂故障和与老化有关的故障

MCA恢复功能是基于intel 至强可扩展系列处理器(lga3467)的服务器的容错功能的一部分。 这些功能使系统在检测到未纠正的错误时可以继续运行。 如果没有这些功能,则系统将崩溃,并且可能需要更换硬件或重新引导系统.

MCA Recovery处理以下2种错误:

  • SRAR
  • SRAO

下面是linux操作系统错误处理流程(图小可以右击,在新窗口打开)

可以看出来。
针对可以纠正的错误(UCNA和CE),直接反映给mcelog daemon。
针对不可纠正错误,操作系统不能继续运行的(UC),直接传递到linux内核错误上去。
针对未纠正可恢复的错误(UCR),如果是SRAR,需要系统重启的,传递到内核空间,然后在用户空间杀死进程。如果是SRAO,在内核空间中忽略,在用户空间隔离。

能够有效的避免系统错误,导致server异常。

4.2 Memory Address Range Mirroring

内存地址范围镜像是intel可扩展处理器的一个RAS新功能。可以在选择专用于冗余的内存量方面提供更大的粒度。

内存镜像(全镜像模式,部分镜像模式和地址范围模式)旨在允许对关键内存区域进行镜像,以提高物理内存的稳定性。 镜像内存的动态故障转移对于操作系统和应用程序是透明的 (无需重新启动)

地址范围镜像的演示如下图所示。它类似于部分内存镜像,可以有选择地为单个物理机器启用。在启用地址范围镜像的每个物理机器上,可以使用64MB的间隔定义主镜像和辅助镜像的大小(范围)

版权声明:
作者:佛西
链接:https://foxi.buduanwang.vip/yj/620.html/
文章版权归作者所有,未经允许请勿转载
如需获得支持,请点击网页右上角
THE END
分享
二维码
海报
什么是机器检查异常(Machine Check Exception)?
新一代intel至强可扩展处理器lga3467,支持MCE。通过MCE技术,减少服务器不能工作的几率
<<上一篇
下一篇>>