来自 新葡亰运维 2019-11-13 17:07 的文章
当前位置: 澳门新葡亰app > 新葡亰运维 > 正文

【澳门新葡亰app】但有一次启动服务器后发现有

网络技术飞速发展,计算机网络被广泛应用于学校、科研部门、政府机关及商业等各个领域。网络管理的好坏将直接影响网络的有效使用,其中对于服务器的安全维护十分重要。服务器的管理维护包括软件和硬件两个方面,哪一方面出问题都会让服务器运行出现故障甚至瘫痪。下面就给大家说一说本人在实际中遇到的一次HP服务器故障排除。

服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。导致服务器出现软件故障的原因有很多,服务器常见故障有BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。下面分别举例说明各类软件故障的维修方法。

HP服务器故障排除一、出现故障

有一台HP LH6000R服务器,配置为双PIII XEON 700带2M高速缓存的CPU、512M内存。开机后,系统日志报电压调节模块异常VRM)的错误,报错的信息是:“Voltage Regulator Module (VRM) over/under-voltage 2.88V/0V”。从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。维护人员立刻使用其它LH6000R上的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。就在一筹莫展的时候,维修工程师带来了最新的CPU管理板CPU Management Control)的固件FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。

笔者单位使用的是HP NetServer LH3000服务器组成的局域网,自从建网以来服务器硬件一直良好。但有一次启动服务器后发现有问题,刚开始自检运行都正常,等到进入Windows2000主画面时,发现服务器主机内的噪音变大,开始认为是系统软件加载错误导致的,多次重新启动服务器,有时重启后正常维持时间稍长,有时稍短。等到系统启动完毕后,注册进入系统,打开管理工具,查看系统日志,没有发现故障提示。

FIRMWARE升级方法是,在服务器的NAVIGATOR导航光盘)中提取CPU管理板CMC)FIRMWARE的刷新程序,程序为FLASH.EXE,然后将从网上下载的LH6KC.BINCPU管理板的FIRMWARE)拷贝到一张DOS启动盘上,用这张盘启动服务器。然后在DOS下运行”FLASH /CMC A:LH6KC.BIN”,刷新完成后重新启动服务器后即可。这种升级方法也适合刷新系统BIOS等,只是FLASH命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。

HP服务器故障排除二、故障的排除

任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法会导致严重的后果。

于是我们怀疑是感染了病毒,把服务器设置成从软盘驱动器启动,用KV3000杀毒王引导盘启动服务器,之后扫描硬盘,查完后未发现病毒,排除了病毒感染的可能性。又怀疑与BIOS有关?检查BIOS设置,查出版本号,到惠普网站查询,找到了对应的新BIOS版本,于是决定升级BIOS试一试。先到惠普网站下载了最新的BIOS升级程序,拷贝到软盘,为了保险,先将服务器现在的BIOS备份后再升级。从软盘引导系统,运行升级程序,大约25分钟之后,升级终于顺利完成。再启动进入BIOS设置,改为硬盘启动。重启服务器,进入系统后,过了一会儿,故障依旧。至此,我们才转向服务器的硬件检查,打开了机箱,检查电源风扇,运转正常,粗略检查其它风扇也未见异常。最后请HP专业维护人员来,并将系统I/O控制板和电源控制板予以更换,更换重启服务器后,问题仍未解决。于是开始全面检查服务器,在服务器面板主菜单中查看,意外发现“Event Log”中的“System Event”下有一提示,显示“Fan Slow”。于是我们重新打开机箱,认真检查每组风扇,由于服务器内部有多组风扇,各自负责不同控制板的散热。分别检查,终于在机器隔板下的隐蔽处找到两组风扇,其中有一组风扇停转。原因找到后,换上新风扇再启动服务器,声音小了。运行一切正常。至此服务器故障得以排除。

目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种操作系统下的驱动程序,方便了客户在各种操作系统中的使用。但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。

HP服务器故障排除三、故障排除分析

当服务器的软件故障为此类时,表现的现象也不尽相同。一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是异常。由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。以WINDOWS NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。但是需要注意的是,在安全模式中,系统速度变慢是正常的特别是磁盘I/O方面)。

从以上故障排除过程得知,HP NetServer LH3000服务器的面板日志记录中记载着系统每次启动和关闭时的硬件检测信息,如果系统出现故障,我们可以直接查看系统事件,以便快速诊断故障部位,这将起到事半功倍的作用。现将HPNetServer LH3000服务器面板的主要内容简单介绍一下:

服务器的管理人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。这样会减少很大一部份软件故障的发生。

Event Log

相比之下,软件冲突造成的故障判断比较困难,需要管理人员有比较丰富的经验以及敏锐的观察力。

Fw lnfo:主要是一些设备信息,如BIOS版本号等。

曾经有一位朋友告诉我说,他有一台浪潮的服务器无法安装SQL SERVER 2000,已经重装N次NT了,排除是系统故障。而这唯一的服务器又将作为非常重要数据库服务器,因此非常着急。于是我陪着朋友去了他的公司查看。这台服务器所在的机房是非常标准、完善的机房,我检查了这台服务器的情况,发现并没有硬件上的故障,于是排除了光驱读盘力差的可能。但是,朋友刻的SQL SERVER 2000光盘引起了我的怀疑,我让他拿出了正版的SQL SERVER安装,结果还是不行。在安装的过程中,没有出现丝毫错误,可就是在运行的时候会自动退出,没有任何提示。但是,我在管理工具中的事件查看器的系统日志中却发现了一条信息:windata.exe导致一个无效的数据溢出。Windata是朋友自己编写的一个程序,而且是随操作系统启动而启动的程序。我立即结束掉这个进程后,再运行SQL一切正常。

System lnfo:主要是硬件信息,如CPU主频、型号、CPU号(多处理器)、L2Cache、内存容量及所在插槽等。

对于此类软件故障,操作员最好先查看有关的日志,看看系统中是否有可疑的进程。目前的服务器无论是高端还是低端,对于SQL等标准程序的支持是相当可靠的,所以排除的重点就是结束可疑进程。

Component lnfo:主要是产品标号、序列号等。

还有一种软件故障是人为因素造成的,它一般是人为误操作包括没按操作流程的操作)、意外关机包括电源突然不供电)或非正常关闭应用程序造成的。

Service:记录一些服务信息。

人为误操作因素只要加强管理都可以避免此类故障发生。在这里就详细说明意外关机或非正常关闭程序造成故障的方法。

Adjust Contrast:调整面板显示的对比度。

正常关闭系统程序非常重要,尤其是WEB服务器。我的一个朋友就是因为没有正常关闭系统程序而经历了一次数据损坏甚至丢失的经历。我的朋友是使用的HP web hosting server appliance,因此我向他提供了一些使用规则。

按面板右侧的上下箭头,选择进入子菜单;当光标处于“Event Log”时回车进入,选择“System Event”再进入,即显示系统引导、死机、管理、硬件故障信息等内容。通过查看记录即可知道异常情况的原因及时间等信息,为解决问题提供依据。

这些方法对于服务器的维护非常有效,主要包括了正确的关闭系统程序、怎样避免数据丢失以及非正常关闭系统后的恢复方法。下面以我朋友的HP web hosting server appliance为例使用的是UNIX,但思路对于其它操作系统均有效)。

HP服务器故障排除四、经验总结

  1. 服务器常见故障排除十四法
  2. 从零起步教您常见DNS解析故障排除方法
  3. DHCP和DNS常见故障

HP服务器出现噪音变大的故障,初期可能只是风扇转速减慢,系统还能继续工作,但由于系统负荷逐渐加大,环境温度升高,使服务器内部温度升高,加大了风扇的负荷,最终导致一组风扇损坏,将排风散热的工作由另一组风扇负担,系统初始启动时,系统产生热量较小,一组风扇还可以承担。当系统运行一段时间后,机箱内温度开始升高,当系统检测到温度已超过其阈值时,于是发出指令提高风扇转速,加速散热,从而导致服务器主机内的声音突然加大。如果各组风扇都运行正常,则可以保证服务器主机内的温度在正常范围内,从而保证系统正常运行。

...

在检查服务器的硬件问题时,最好先查看服务器面板主菜单“Event Log”的内容。由于服务器事件存储容量有限,应定期备份记录,否则溢出后新事件将无法记录,会导致系统实时信息丢失,不利于排查故障。建议用Navigator CD制作DiagTools启动软盘,需两张软盘。定期用软盘启动服务器,启动后回车,即选择Diagtools和Event Log Display Utility Ver 3.12,进入Event Log Display Utility Ver 3.12,即可导出Event Log记录;否则按“ESC”,只有Diagtools不能导出事件日志。还可以通过Diagtools工具检查系统,保证系统的安全。

  1. 服务器故障不用忙 找对方法解迷茫
  2. 服务器故障排除大汇总
  3. 怪异服务器故障带来的经验

...

本文由澳门新葡亰app发布于新葡亰运维,转载请注明出处:【澳门新葡亰app】但有一次启动服务器后发现有

关键词: