升东运维是一家专业从事Linux/Freebsd Unix/Windows平台网站维护业务的公司,专业提供Linux(CentOS Redhat Ubuntu等),Unix(Freebsd),Nginx,Apache等系统及网站维护,七年从业经验

Archive for the ‘高可用集群’ Category

RHCS,fencing后服务器反复重启(转自ChinaUnix)

星期四, 九月 8th, 2011

原址:http://bbs.chinaunix.net/viewthread.php?tid=3558577

2台IBM X3850 X5服务器,连接DS5300光纤存储,操作系统是RHEL5.5,使用RHCS做HA。
X3850有6个以太网口,eth0,eth2做bond,IP分别是192.168.108.13,192.168.103.14

使用板载IPMI设备做为内部Fence设备,IP分别 为192.168.70.125,192.168.70.125,2台服务器的eth5配置为192.168.70.121,192.168.70.122,这4个端口连接在交换机的一个VLAN里作为心跳。

配置过程出现了很多波折,至少是已经解决了,配置完成后,服务正常启动,测试fence_ipmilan,fence_node都可以正常工作。拨了心跳网线,也能正常切换,这时,杯具出现了:
被fenced的服务器在即将进入操作系统时,再次重启,循环往复。看日志时发现似乎每隔几分就像这台服务器发一个fencing,结果就不停的重启了。

问题的原因,是有一个服务NetworkManager,在每次启动至图形登录界面时,会重置一次网络接口的状态,导致被认为是设备故障,便会自动重启。如果Fence设备与Bond设备在同一网段,没有专门的心跳网络时,应该 不会出现此问题。这个服务只在级别5时启动,关闭就没有问题了

 

注:这个NetworkManager还会导致手动ip配置不起效,如果不需要图形配置网卡,可以删除这个软件