troubleshooting remote node crash reboot when stop Clusterware

这是来到新公司支持的第二个case,第一个case忘记记录了,不能偷懒,以后还是要记录案例。

本案例来自一个12.1的rac环境,故障现象为当关闭某节点的gi时,远端节点的os会reboot。

故障时间线:

查看集群alert和cssd日志并无有价值的信息,还好crash时kdump产生了vmcore文件

vmcore文件分析:

oks_rbld模块异常触发kernel panic导致了os reboot,通过oks_rbld和reboot关键字搜索mos可以看到几篇文档匹配

匹配的bug:

  • Bug 30139389 – ACFS Produces Kernel Panic After Installing 12.1 July 2019 GIPSU (Doc ID 30139389.8)

适用范围:

Affects:

Product (Component)
Range of versions believed to be affected Versions BELOW 12.2
Versions confirmed as being affected
Platforms affected Generic (all / most platforms affected)

Fixed:

The fix for 30139389 is first included in

its recommended to apply merge patch of 30293309 and 30139389

bug描述在12.1版本使用了acfs,并且应用了19年7月的psu则会触发该bug。

message日志也有匹配的输出:

当前GI的psu信息:

也非常匹配。

workaroud提供了四种方法规避此bug:

  • 停止gi之前,umount所有的acfs
  • 回退19年7月的psu
  • 打19年10月的psu
  • 打one-off patch

简单记录一下问题。over

 

此条目发表在Oracle, Oracle troubleshooting分类目录,贴了, , 标签。将固定链接加入收藏夹。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注