HP小型机HA故障实例,仅供学生学习使用 某单位使用两台HP-K260小型机,其HA(High
Availability)采用MC/Service
Guard产品,版本是A1006。一台主机IP地址是aaa.bbb.ccc.1,另一台主机IP地址是aaa.bbb.ccc.2,浮动IP地址是aaa.bbb.ccc.3,包控制部分信息如下:
HIGH AVAILABILITY PACKAGE CONTROL SCRIPT
# VOLUME GROUP ACTIVATION:
VGCHANGE=“vgchange-a
e”
#VOLUME GROUPS
VG[0]=vg02
#IP ADDRESSES
IP[0]=aaa.bbb.ccc.3说明:PACKAGE地址被设为浮动IP
SUBNET[0]=aaa.bbb.ccc.0
#SERVICE NAMES AND COMMANDS.
SERVICE[CD#1]NAME[0]=SYBASECD
SERVICE[CD#1]CMD[0]=“/etc/cmcluster/pkg1/hello.cmd”
SERVICE[CD#1]RESTART[0]=“-r
0”
…… 下面是使用过程中出现的一例故障,希望通过对此故障的分析处理和大家共同探讨,提高维护水平。 一、故障现象 所有前台PC机都不能使用。 故障分析:
1.登录到小型机 首先登录成功说明网络无问题;运行cmviewcl-v查看,CLUSTER状态up、两台小型机NODE状态up、PACKAGE状态running,现象正常;
2.查看两台小型机网卡lanscan、ifconfig
lan0、ifconfig
lan1正常;查看心跳正常;
3.运行netstat-an|more,查看sockets状态以及passive
sockets used by server processes,也无异常现象;
4.查看数据库服务器SYBASECD.log,也未发现异常现象;
5.查看/var/adm/syslog/syslog.log,发现一条信息:
Dec 14 09:48:17 cd97[CD#1]1 telnetd[11343]:recv:Connection
reset by peer;
6.从另一台小型机Ping
aaa.bbb.ccc.3正常,而运行telnet、ftp被拒绝,似乎是OSI下三层无问题,而上层有问题,但查看telnet、ftp进程、端口配置等,也未发现问题;
7.运行arp-a
cd97[CD#1]1(aaa.bbb.ccc.1)at 8:1:6:c9:4a
:96 snapfddi
float[CD#1]addres(aaa.bbb.ccc.3)at 0:a1:c8:6c
:32:cf snapfddi
?(aaa.bbb.ccc.6)at(incomplete)
cd97[CD#1]1(aaa.bbb.ccc.4)at 0:53:b2:23:ba:4f
ether
?(aaa.bbb.ccc.30)at 0:1:c:6:ac:9 snapfddi 发现浮动地址aaa.bbb.ccc.3的MAC地址为0:a1:c8:6c
:32:cf,和网卡的厂商标志不符,怀疑有人盗用aaa.bbb.ccc.3。 二、故障排除 停掉CLUSTER:cmhaltpkg-f,从PC机上PING
aaa.bbb.ccc.3,发现可以PING通,说明确实有机器盗用浮动地址。从PC机DOS方式下PING
aaa.bbb.ccc.3后,运行nbtstat-A
aaa.bbb.ccc.3,得到信息如下: NetBIOS
Remote Machine Name Table
Name
Type
Status
ABCD
<00>UNIQUE
Registered
EFGH
<00>GROUP
Registered
ABCD
<03>UNIQUE
Registered
ABCD
<20>UNIQUE
Registered
EFGH
<1E>GROUP
Registered
ZZZ
<03>UNIQUE
Registered
EFGH
<1D>UNIQUE
Registered
..__MSBROWSE__. <01>GROUP
Registered MAC
Address=00-A1-C8-A6-69-3C 主机名为ABCD,组名EFGH的机器正使用aaa.bbb.ccc.3,修正其IP后重起
CLUSTER:cmruncl-v,应用正常。 利用nbtstat这种方式,查运行Windows的PC机可得到一些信息,但查运行SCOUNIX的机器得不到信息,需要从另外途径查找。 这次故障虽然是因局域网内机器盗用浮动IP地址引起的,但查找障碍的流程一定要科学,尽量做到合理实效。
|