对 NetWare 服务器查错

本部分提供如下典型 NetWare 服务器问题的查错建议:


解决异常结束问题

尽管 NetWare 操作系统相当具有活力,但还是会出现故障。严重问题通常都伴随有异常结束(非正常终止)讯息。如果出现异常结束讯息,表明 NetWare 或 CPU 检测到了严重的错误情况并启动了 NetWare 故障处理程序。NetWare 使用异常结束来确保操作系统数据的完整性。

当服务器异常结束时,用户可能无法登录到服务器,工作站可能无法从服务器读数据也不能将数据写入服务器,而服务器控制台的“系统控制台”或“日志记录器”屏幕上也通常会出现异常结束的讯息。如果启用了 NetWare 自动恢复(默认设置),NetWare 可能会自动重启动服务器会暂停出错的进程,具体情况视异常结束的特点而定。

如果控制台上没有出现异常结束讯息,SYS:SYSTEM 中没有ABEND.LOG 文件,系统控制台提示中没有带括号的数字,但用户仍然不能访问服务器,请参见监视和解决通讯问题。 如果没有出现异常结束讯息,但控制台已冻结以至于无法输入命令,请参见服务器控制台挂起


了解在出现异常结束时所发生的情况

服务器异常结束时,显示与下面类似的异常结束讯息:

异常结束:SERVER-5.xx-讯息号 讯息字符串附加信息:讯息

附加信息部分指明异常结束的可能起因。它指明发生问题的位置并给出所有与异常结束相关的 NLM 名称。此信息可帮助确定如何解决异常结束问题。

异常结束讯息和附加信息都保存在驱动器 C: 上的ABEND.LOG 文件中。重启动服务器后,ABEND.LOG 文件将立即移到 SYS:SYSTEM 中。

可以手工响应或者使服务器自动响应异常结束。

手工响应时,服务器确定异常结束的性质并在屏幕上显示相应的响应选项,以及用于关闭服务器或执行内核转储的额外选项。必须执行某个选项以响应异常结束。

服务器自动响应时,将自动执行相应的响应而无须用户干预。

重要:  有时,异常结束(或有故障的 NLM 程序)可能导致服务器控制台停止工作。这种情况下,不显示异常结束讯息,且无法在控制台提示符下输入命令。

服务器出现故障后,我们建议关闭计算机的电源,然后重启动它(而不是只退出到 DOS 提示 C:\NWSERVER),再键入 SERVER。


手工响应异常结束

响应异常结束的默认方法是自动响应。(参见自动响应异常结束。)

要手工响应异常结束,请请将以下 SET 参数(“错误处理“类别)更改为显示的值:

AUTO RESTART AFTER ABEND = 0

该 SET 参数控制异常结束后服务器的行为表现。有关每个值的说明,请参见联机帮助。

发生异常结束时,服务器根据异常结束的性质显示一个选项列表。要响应该异常结束,必须键入某个选项的首字母以执行选项。

可能会显示下列选项。注意有几个选项的首字母相同(如 R、S 或 X)。在特定的异常结束条件下,对任一给定的首字母,选项列表将只包括一个选项。

当服务器重启动时,它将 ABEND.LOG 文件从 DOS 分区移到 SYS:SYSTEM 目录。


自动响应异常结束

可以要求服务器自动响应异常结束。自动响应有两种形式。

使用以下 SET 参数,指定异常结束后服务器等待多长时间才尝试关闭并重启动计算机:

AUTO RESTART AFTER ABEND DELAY TIME =分钟

要设置参数值,使用服务器控制台上的 SET 命令或 MONITOR 或从工作站使用 NetWare 远程管理器。

Developer Option 参数位于“杂项”类别中。

Auto Restart After Abend 和 Auto Restart After Abend Delay Time 参数属于“错误处理”类别。

所有参数都可以在 STARTUP.NCF 文件中进行设置。

因为服务器自动响应异常结束,所以用户可能并不知道何时出现了异常结束。因此,应定期查看 ABEND.LOG 文件或 NetWare 远程管理器中的“执行简报和调试信息”屏幕(查找“由于异常结束恢复而暂停”状态)。


包接收缓冲区不足、无可用 ECB 计数错误

当某个设备向 NetWare 服务器发送了包,但没有可用的包接收缓冲区时,ECB(事件控制块)计数器将加 1。这意味着服务器已删除了一个包。

在每次事件之后,服务器会分配更多的包接收缓冲区,直到达到其最大限制(“最大包接收缓冲区”设置)。

如果使用的是 EISA 总线板(如 NE3200TM 板),则可能需要增加最小和最大包接收缓冲区数。

有关设置“最小包接收缓冲区”和“最大包接收缓冲区”参数的过程,请参见 Utilities Reference(NetWare 6 文档)中的“SET”
>“通讯参数”。

“无 ECB 可用计数”讯息还说明未正确配置驱动程序或特定拓扑模块 (TSM) 和特定硬件模块 (HSM) 不兼容。此值由 TSM.NLM 程序维护。

如果 ECB 计数不断增加,所有的包接收缓冲区又都在使用,请执行内核转储(请参见创建内核转储)并与 Novell 技术支持部门联系。


解决服务器响应慢的问题

要诊断服务器响应慢的问题,确认是否存在下列情况:

要解决服务器响应慢的问题,执行下列操作:


服务器控制台挂起

如果服务器控制台锁定,导致无法输入命令,但“系统控制台”或“记录器”屏幕上没有异常结束讯息,请按照下列步骤对该问题进行查错。如果屏幕上出现异常结束讯息,参见解决异常结束问题

  1. 校验能否在控制台屏幕间切换。

    若能,则问题可能是由服务器利用率过高引起的。参见 高利用率统计数字。若不能,继续执行下列步骤。

  2. 校验在您卸载指定的 NLM 时,服务器控制台是否挂起。

    若是,该 NLM 可能是问题的根源。与该 NLM 的供应商联系。

  3. 确保您使用的是最新的磁盘和 LAN 驱动程序、BIOS 和固件。

    若不是,更新磁盘和 LAN 驱动程序。有关 NetWare 驱动程序的信息,请参见 随时为服务器安装增补程序

  4. 校验在装入最后一个卷后服务器控制台是否挂起。

    若是,可能是网络板安装不正确或者配置不正确。检查网络板及其配置并改正错误。

  5. 校验是否能通过在系统控制台键盘上按 Shift+Shift+Alt+Esc,强制进入调试程序。

    建议:  左手按住左 Shift 键,右手同时按住右 Shift 键和 Alt 键。然后用左手最近便的手指按 Esc 键。

  6. 如果控制台已锁定,不能在屏幕间切换,也无法进入调试程序,请与 Novell 技术支持或计算机供应商联系,以获取关于生成不可屏蔽中断来关闭服务器的帮助。

如果问题仍然出现,请按照使用查错方法中的查错步骤,搜索Novell 知识库,并与 Novell 支持供应商联系。


高利用率统计数字

网络性能是网络管理员和 Novell 主要考虑的问题。然而,人们有时会混淆性能指标及其统计数字的含义。

例如,认为处理器利用率是 NetWare 的关键性能指标的看法就过于简单。当 NetWare 远程管理器中的 CPU 利用率运行状态或 MONITOR 的“一般信息”屏幕中的利用率值接近 100% 时,一些网络管理员就会十分关注,因为他们认为百分比越高,NetWare 的性能就越差。这是完全错误的。


何谓正常?

首先考虑利用率值的含义:前一秒(更新间隔)内所使用的服务器总处理能力的平均值。剩余的处理能力消耗在空闲循环进程中。换句话说,它表示处理器在该时间段中用于处理任务的时间。高利用率值表示 NetWare 占用了处理器总处理能力的很大一部分(该百分比),而浪费的空闲时间较少。

一些进程能够充分利用处理器,因而可能达到 100% 的利用率。这样的利用率是完全适当的。大多数情况下,利用率达到 100% 表示线程正在有效地使用处理器。100% 利用率状态可能会保持数分钟;这是正常的。

不过,当连接断开时,或服务器性能显著恶化时,在 15 到 20 分钟(或更长时间)内 100% 的利用率居高不下,则这是 正常的。这些情况下高利用率表明存在问题。如果未出现这些情况,即使利用率有时会达到 100% 也属正常。

如何判断服务器是否正常?如果对自己的服务器非常熟悉,则可辨别出问题。知道哪些情况属于正常,并且了解表面问题和真正的性能问题之间的差别。(可以通过装载或卸载任何一个 NLM 来测试表面问题;这将导致重新计算处理器信息。)


最常用的解决方法是什么?

在对高利用率问题进行查错之前,确保已经执行了使用查错方法中的步骤。访问 Novell 支持连接万维网站点,下载 NetWare 增补程序或更新的 NLM 程序。提供的增补程序可以修复已报告的、与实际的操作系统和 eDirectory 代码有关的高利用率问题。

不过,很多高利用率的情况也可能是由配置问题、NLM 程序级别问题和调整问题导致的。

首先需要做的事情之一就是找出正在使用 CPU 的 NLM 程序和线程。要找出正在使用 CPU 的 NLM 程序和线程,请完成下列步骤:

  1. 访问 NetWare 远程管理器。

  2. 单击导航框中的“简报/调试”链接。

  3. 单击“按 NLM 生成 CPU 简报”链接。

  4. 记录执行时间最长的父 NLM 程序和线程。

  5. 如果可能,请卸载有问题的 NLM 程序,观察问题是否消失。

还可以使用下面的问题列表帮助您解决问题。

列表中的项目已经过分类,但并没有特定的顺序。该列表是 Novell 支持代表的经验结晶。建议用户查看每一个项目,并用每个项目仔细分析自己的系统。除了 NetWare 6 的新问题之外,几乎在任何情况下都可以用它自行解决问题。


操作系统问题


储存设备和适配器问题


内存问题


Novell eDirectory 问题


客户机问题

如果问题仍然存在,请执行使用查错方法 中的查错步骤,查看 TID 10011512“高利用率查错”中的提示,搜索Novell 知识库中有关高利用率的内容,并与 Novell 支持供应商联系。


磁盘错误

要解决磁盘 I/O、磁盘空间和镜像问题,请阅读以下章节:


解决一般服务器磁盘 I/O 错误

要解决服务器上的一般磁盘 I/O 错误,尝试下列一项或多项补救措施:

如果已经尝试过上述所有建议但均未成功,请与 Novell 支持供应商或驱动器生产商联系。


解决服务器磁盘空间问题

要解决磁盘空间不足错误,采取下列一项或多项措施:


镜像的分区不能自动重镜像

当镜像的分区变为不同步时,它们应当自动重新同步。如果分区不重新同步,请完成下列步骤:

  1. 在 ConsoleOne 中,浏览并选择要管理的树,然后单击“分区磁盘管理”图标。

  2. 输入 eDirectory 树和环境,以及服务器信息。

  3. 单击“属性”>“媒体”>“镜像”>“重新同步”。

  4. 如果分区仍然不重新同步,必须重新创建镜像集。

    1. 确定哪个磁盘分区上有您要保存和镜像的数据。

    2. 删除其它磁盘分区。

    3. 重新创建新的分区,代替您所删除的分区。

    4. 将包含数据的分区镜像到新的分区。

    有关镜像的信息,请参见 Online Documentation 光盘中的联机文档。请参见 Novell Storage Services Administration Guide(NetWare 6 文档)中的“Creating a Partition(创建分区)”。

如果问题仍然存在,请执行 使用查错方法中的查错步骤,搜索 Novell 知识库,并与 Novell 支持供应商联系。


镜像过程需要很长时间

如果分区很大,镜像过程有时需要几个小时才能完成;这是正常的。下面的措施可能有助于加速镜像过程:

如果问题仍然存在,请执行 使用查错方法中的查错步骤,搜索 Novell 知识库,并与 Novell 支持供应商联系。


镜像过程在即将完成之前停止

有时,镜像过程正常进行,没有发生错误,却在完成 99% 时停止。要对此问题进行查错,请执行下列步骤:

如果问题仍然存在,请执行 使用查错方法中的查错步骤,搜索 Novell 知识库,并与 Novell 支持供应商联系。


解决装入传统卷时出现的磁盘错误问题

要诊断装入传统卷时出现的磁盘错误问题,判断是否存在下列情况:

要解决装入卷时出现的磁盘错误问题,请执行下列步骤:


解决服务器内存问题

要对各种服务器内存问题进行查错、要解决内存漏洞问题,或者要通过释放内存解决内存问题,请阅读以下章节:


NetWare 不识别服务器上的所有内存

通过下列步骤查找问题的根源。

  1. 检查您使用的是 NetWare 内存管理器还是外部的内存管理器。CONFIG.SYS 或 AUTOEXEC.BAT 中是否包含装载内存管理器或者 DOS 设备驱动程序的语句或命令 (DOS=HIGH)?例如,是否有装载 HIMEM.SYS 或 EMM386.EXE 的命令?两者都是内存管理器。

    在 CONFIG.SYS 中注释掉这些语句或完全删除 CONFIG.SYS。在 AUTOEXEC.BAT 中注释掉这些语句。(要注释掉一个命令,在该命令行的开头键入 REM 和一个空格)。

    如果服务器中有内存管理器,NetWare 将通过该内存管理器来确定可用内存量,而不是通过注册内存本身。在较旧的计算机中,有些内存管理器不识别 64 MB 以上的内存。DOS 设备驱动程序会占用内存,使 NetWare的内存池减小。

    确保不使用 Windows 95 来引导服务器。Windows 95 自动装载内存管理器。

  2. 确保服务器的 BIOS 是最新的。

    过时的 BIOS 可能会报告错误的内存量。如果有较新的版本,请更新 BIOS。

如果问题仍然存在,请执行 使用查错方法中的查错步骤,搜索 Novell 知识库,并与 Novell 支持供应商联系。


解决服务器内存漏洞问题

内存漏洞是指一个 NLM 程序或一组 NLM 程序已向服务器请求了内存,但在用完之后并没有归还内存。可用内存量将逐渐减少,直到最终服务器产生内存错误讯息。内存泄漏可慢可快,这取决于每次请求的内存量。

如果重引导服务器,内存将返回到内存池中,并且内存不足的错误讯息暂时停止,直到更多的内存陷入内存漏洞,足以再次产生错误讯息为止。

要查看服务器是否有内存漏洞,重启动服务器,然后监视内存统计数字(超速缓存缓冲区总量)随时间的变化。如果交通量并没有增加,也没有在服务器上安装新的应用程序,而此统计数字却发生了变化,请通过下列步骤找出问题的根源。

  1. 在服务器上装载最新的增补程序。

    服务器增补程序可从 Novell 支持万维网站点和其它地方获得。有关从哪些地方可以获得增补程序,请参见 Server Operating System Administration Guide(服务器操作系统管理指南)(NetWare 6 文档)中的“Applying Patches(适用增补程序)”。

  2. 重启动服务器以释放内存,并建立内存使用的基线。

  3. 查看模块的内存统计数字:

    1. 访问 NetWare 远程管理器。

    2. 单击导航框中的“列出模块”。

    3. 单击“分配内存”按钮,对内存使用情况列表进行排序。

    4. 对怀疑可能是漏洞根源的每一个模块,单击为该模块分配的内存的链接。

      在正常情况下,诸如 SERVER.NLM、NSS.NLM 和 DS.NLM 模块通常位于该列表的顶部。

    5. 打印此页,将它用作监视模块的内存使用情况时的基线。

  4. 对怀疑可能是内存漏洞根源的每一个 NLM ,重复步骤 3

  5. (视具体情况而定)如果再次出现内存错误讯息,请重复步骤 3,查看每个可疑的 NLM 的内存统计数字。注意这些模块中是否有哪个所使用的内存量显著增加。

    如果存在内存漏洞,一个或几个模块的“已用字节数”值将明显增大。

  6. 找到了内存漏洞的根源之后,请与该模块的厂商联系,把这个问题告诉他们。如果可能,更新此模块或从服务器中去除此模块。


临时释放服务器内存

要临时释放服务器内存(直到可以为服务器添加更多内存),请采取下列一项或多项措施:


解决装入传统卷时出现的内存错误

要诊断装入卷时出现的内存错误问题,判断是否存在下列情况:

要解决装入卷时出现内存错误的问题,请执行如下操作或确保满足下列条件:


服务器显示内存错误讯息

典型的内存错误讯息有:

如果存在这些情况中的任意一种,请通过下列步骤查找问题的根源:

  1. 确保服务器未装载内存管理器或 DOS 设备驱动程序。

    检查 AUTOEXEC.BAT 和 CONFIG.SYS 文件,确保未装载任何内存管理器(如 HIMEM.SYS 或 EMM386.EXE),并且两个文件中都没有 DOS=HIGH 语句。确保未装载任何 DOS 设备驱动程序。

    在 CONFIG.SYS 中注释掉这些语句或完全删除 CONFIG.SYS。在 AUTOEXEC.BAT 中注释掉这些语句。(要注释掉一个命令,在该命令行的开头键入 REM 和一个空格)。

    如果服务器中有内存管理器,NetWare 将通过该内存管理器来确定可用内存量,而不是通过注册内存本身。有些内存管理器不识别 64 MB 以上的内存。DOS 设备驱动程序会占用内存,使 NetWare的内存池减小。

    确保不使用 Windows 95 来引导服务器。Windows 95 自动装载内存管理器。

  2. 确保服务器的 BIOS 是最新的。

    过时的 BIOS 可能会报告错误的内存量。如果有较新的版本,请更新 BIOS。

  3. 校验 Reserved Buffers Below 16 MB SET 参数(内存类别)是否设置为 300 或更高。

    对于较旧的驱动程序,请将此值增加到 300 或更高,特别是在有需要 16 MB 以下内存的 CD-ROM 或磁带设备的情况下。

  4. 确保内存自动注册。

    手工注册内存可能会导致内存分段。一些旧的系统板可能要求手工注册内存,但是,最好的解决方法是升级到较新的系统板,让 NetWare 来自动注册内存。

    如果已经手工注册了内存,请重引导服务器以释放内存,但不要再手工注册内存。必要时升级系统板。

  5. 校验在装入传统卷时是否有内存错误。

    如果有,服务器可能内存不足。

    解决此问题的方法是增加 RAM。

    要临时释放内存,请参见 临时释放服务器内存

  6. 在 NetWare 远程管理器或 MONITOR 中校验“LRU 坐等时间”的平均值在工作高峰期是否超过 15 分钟。

    如果不是,服务器可能内存不足。

    要临时释放内存,请参见 临时释放服务器内存。要使用“LRU 坐等时间”调节内存,请参见 Server Memory Administration Guide(服务器内存管理指南)(NetWare 6 文档)中的“Tuning File Cache(调节文件超速缓存)”。解决此问题的方法是增加 RAM。

  7. 检查内存漏洞。

    即使网络交通量没有增加,也没有在服务器上安装新的应用程序,“LRU 坐等时间”和“长期超速缓存命中数”是否也逐渐下降?

    如果是,服务器可能有内存漏洞。参见 解决服务器内存漏洞问题

如果问题仍然存在,请执行 使用查错方法中的查错步骤,搜索 Novell 知识库,并与 Novell 支持供应商联系。


解决设备已锁定错误

要解决设备已锁定错误,尝试下列一项或多项措施:

如果已经尝试过上述所有建议但均未成功,请与 Novell 支持供应商或驱动器制造商联系。


解决事件控制块分配错误

第一次启动服务器或服务器运行一段时间后,事件控制块分配系统讯息可能出现。

这些讯息指明服务器无法获得足够的包接收缓冲区,通常称为“事件控制块” (ECB)。ECB 用尽并不是致命的错误。但是,它可能表示存在 LAN 问题或服务器问题。

已运行多天且在高峰时出现高负载的服务器可能会超过 ECB 的最大设置值,这将导致系统生成 ECB 系统讯息。

如果这些情况是由偶尔出现的内存需求高峰所引起的,则应该保留当前的 ECB 分配最大值并允许届时生成此讯息。

否则,如果服务器内存负载很高,并且频繁出现 ECB 分配错误,应尝试将 ECB 分配最大值设置得更高。在 STARTUP.NCF 文件中使用以下 SET 命令:

SET MAXIMUM PACKET RECEIVE BUFFERS=数值

为 ECB 分配的内存无法用于其它用途。

服务器可用缓冲区的最小数值也可在 STARTUP.NCF 文件中用以下命令进行设置:

SET MINIMUM PACKET RECEIVE BUFFERS=数值


解决服务器控制台命令问题

要诊断服务器控制台命令问题,判断是否存在下列情况:

要解决服务器控制台命令问题,请执行下列步骤:


解决从 CD-ROM 复制文件时出现的键盘锁定问题

要诊断从 CD-ROM 复制文件时出现的键盘锁定问题,判断是否存在下列情况。

如果某个 CD-ROM 设备与一个磁盘子系统共享 SCSI 总线,而该磁盘子系统包含网络操作系统安装文件要复制到的目标卷(通常为 SYS: 卷),在向该卷装载驱动程序或复制文件时键盘可能会锁定。下图显示可能会出现的配置冲突。


1. 硬盘连接到外部 SCSI 连接器,而 CD-ROM 驱动器通过菊花链连接到硬盘;2. 硬盘连接到外部 SCSI 连接器,而 CD-ROM 驱动器连接到内部 SCSI 连接器;3. 硬盘连接到内部 SCSI 连接器而 CD-ROM 驱动器通过菊花链连接到硬盘

从 CONFIG.SYS 文件中去除用于将 CD-ROM 驱动器设置为 DOS 设备的 CD-ROM 设备驱动程序。这可避免在将 Operating System 光盘作为 NetWare 卷装入时发生冲突。

要解决从光盘复制文件时出现的键盘锁定问题,可以使用以下方法:

  1. 按 Alt+Esc 键直到切换到控制台提示符下。

  2. 输入DOWN.

  3. 使用文本编辑器从 CONFIG.SYS 文件中去除 CD-ROM 设备驱动程序。

  4. 保存已更新的 CONFIG.SYS 文件。

  5. 使用文本编辑器从 AUTOEXEC.BAT 文件中去除所有对 CD-ROM 驱动程序的参照。

  6. 保存已更新的 AUTOEXEC.BAT 文件。

  7. 按 Ctrl+Alt+Del 键重引导服务器。

  8. (视具体情况而定)如果服务器未通过 AUTOEXEC.BAT 文件自动引导,切换到 SERVER.EXE 文件和其它引导文件所在的子目录(默认为 C:\NWSERVER),并在 DOS 提示符下输入如下命令:

    SERVER

  9. (视具体情况而定)如果使用的是 ASPI 设备驱动程序(例如,用于 Adaptec* 控制器的驱动程序),则需要输入下列命令之一:

    AHAxxxx

    其中xxxx 指定 Adaptec 板号

    ASPICD

    CDNASPI

  10. 在控制台提示符下,输入NWPA.

  11. 在控制台提示符下,输入NWCONFIG.



Previous | Next