troubleshooting instance evicted due to ORA error 29740

本案例来自西区某客户,数据库版本为rac 19.16,2节点的db实例被驱逐,报错ORA-29740

由于2节点被驱逐,所以首先看看2节点alert:

22:24:38可以看到2节点被1节点驱逐,lmon产生了trace,我没去看,因为CGS层面的db实例的驱逐本身就是lmon进程去实现的。因为是1节点驱逐的2节点,那么1节点的alert日志是不能漏掉的。

1节点alert:

可以看到22:23:49就出现了ipc send timeout,并且发现触发reconfig的原因与SMON有关系,所以查看SMON trace可以发现

IPCLW层面出现了超时,报错的时间与IPC timeout时间一致,GSIPC:MSGQCB: msg 0x342388d50 send failed inc 11 waited 300653848 usec,说明已经超时了300秒。

看看SMON的ASH:

SMON从22:18:48一直执行sql 679x4qggryd2v,一直在请求同一个远程cr块,并且有大量的gc cr failure 。从2023/11/6 22:18:48开始到22:23:49正好也是trace中报出的超时300秒。

sql文本为:

与smon_scn_time的功能有关系,但这应该不是主要原因,主要原因判断还是与私网有关系。

从osw的traceroute发现,对远程节点的traceroute出现了大量的超时。

message中并未发现异常。但是私网肯定还是有问题的,因为搜了一下alert各个时间点都存在ipc timeout。最终的建议是检查交换机、光纤线和网卡。

此条目发表在Oracle, Oracle troubleshooting分类目录,贴了标签。将固定链接加入收藏夹。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注