Novell(クラウドコンピューティングのセキュリティ・仮想化ソリューションを実現)

 

Linuxシステムがハングする、または不安定である

This document (3301593) is provided subject to the disclaimer at the end of this document.

環境

Novell SUSE Linux Enterprise Server 10
Novell SUSE Linux Enterprise Server 9
Novell SUSE Linux Enterprise Server 8
Novell SUSE Linux Enterprise Desktop 10
Novell Open Enterprise Server(Linuxベース)
Novell SUSE Linux Openexchange Server 4.1
Novell SUSE Linux Standard Server 8

問題の状況

現象

システムがハングする

システムが不安定である

解決策

次の領域を対象とする構造的なトラブルシューティングプロセスに従います。各プロセスについては、以降で説明します。
  • 問題の特徴付け
  • ハードウェアレイヤ
  • BIOS/ファームウェアレイヤ
  • ストレージレイヤ
  • ソフトウェアレイヤ

追加情報

はじめに

考えられる原因が多数あるため、システムハングはトラブルシューティングが非常に困難であり、効率的なトラブルシューティングを行うには系統的なアプローチが必要です。このドキュメントでは、このようなアプローチについて一般的な説明を示します。

問題の特徴付け

まず問題について、少なくとも次の問いに答えられる程度に詳細な特徴付けを行います。

  • ハンするグまたは不安定であることは何を意味するか。システムが特定のサービスを(確実に)提供していないのか、システム全体にまったくアクセスできないのか(ネットワーク経由とコンソール経由の両方)、ある種の接続(SSH、VNC、pingなど)またはコマンドでは応答があるのか。
  • ハングの場合、1回だけなのか、複数回ハングしたのか。
  • ハングが繰り返される場合、一定のパターンがあるか。たとえば、ハングは特定の操作手順でトリガされるのか、常に特定の時間帯や、特定のシステム稼働時間後、または特定のcronジョブの実行後に発生するのか。

ハードウェアレイヤ

システムのハングまたは不安定さは、ハードウェアに不具合があったり構成が不適切な場合に発生することがあります。これが原因となる場合は一般に認識されているよりも多く、それには次の2つの理由があります。

  • ハードウェアの基本は、「安価、高信頼性、高速のいずれか2つ」です。安くて信頼性の高いハードウェアは高速ではありません。高速で安価なハードウェアの信頼性は高くありません。信頼性が高くて高速なハードウェアは安くありません。
  • 適切なハードウェアの構成を行うことは簡単ではありません。多くのハードウェアには調整できる多数の設定がありますが、どの設定をいつ調整すべきかを理解するのは困難な場合があります。

診断ソフトウェアの使用

大手ハードウェアベンダーから、ハードウェアの問題検出に使用できる診断ソフトウェアが販売されているので、これを使用することをお勧めします。ハードウェアの問題が問題ソースとして適切に扱われなければ、ソフトウェアレベルでの分析時に多くの時間が無駄に費やされることになります。

ベンダーのハードウェア診断ソフトウェアとは別に、x86およびx86_64システムにはメモリサブシステム用の精密な診断ツールとして、Memtest86とMemtest86+があります。これらのツールはたいてい、メモリサブシステムの問題の特定に関して、ベンダーのハードウェア診断ソフトウェアよりも優れています。このツールのバージョンがNovellのLinux製品の起動CDに収録されており、またこのツールはwww.memtest86.orgおよびwww.memtest86.com Webサイトからも取得できます。

ベンダーの構成ガイドの参照

ハードウェア構成については、一部のベンダー(IBMなど)は特定のハードウェアモデルについてNovell SUSE Linux製品向けの詳細な構成ガイドをサポートサイトで提供しています。利用できる場合、このような種類のガイドに、できれば初期インストールから従うようにします。このようなガイドに初期インストール中から従わなかった場合でも、後で参照してシステム構成をチェックし、ハードウェアベンダーの推奨内容に合わせるようにします。

認定ドキュメントの参照

さらに、Novell YES CERTIFIED構成については、認定掲示板を参照します。該当する場合、認定掲示板にLinuxカーネルパラメータなどの構成の詳細が記載されています。


電源の問題の対処

一部の地域または場所では、通常の電力線からの電源供給では、電圧、周波数、電流の変動が大きく、ハードウェアが安定的に動作しないことがあります。このような場所では、適切なサージプロテクタ、電圧レギュレータ、無停電電源装置などの電気装置を使用して、コンピュータシステムを動作させるために安定的に電力を供給する必要があります。

コンポーネントの分離


場合によっては、安定性の問題とハングは特定の拡張カードが原因となっています。重要ではない拡張カードをすべて取り外し、システムをテストしてカードを1枚ずつ取り付け、カードを追加するたびにシステムをテストします。

ベストプラクティス:「バーンイン」テスト


これらの事項を考慮すると、運用サービスで使用されるハードウェアに、診断とストレスおよび負荷テストを対象とする完全な「バーンイン」テストを実施してから、運用に投入することを推奨します。

BIOSレイヤ

PCベースのシステムでは、BIOS(Basic Input/Output System)がシステムおよびデバイスの初期セットアップを実施し、ブートローダを起動してシステムをブートさせます。その他のアーキテクチャでは、「BIOS」という用語は使用されませんが、「Open Firmware」または「Extensible Firmware Interface」などの同等の組み込みソフトウェアが存在します。

BIOSと非PCアーキテクチャの同等ソフトウェアは、電源管理、ハードウェアモニタリング、拡張カードのホットプラグに使用されることもあります。

BIOSはその他のソフトウェアと同様に、一般的なプログラミング上の欠点(バグ)を含む場合もあり、ACPIなどの関連する規格に完全に準拠しない場合があります。ベンダーは定期的にBIOSのアップデートバージョンをリリースし、このような欠点を修正します。BIOSの中心的な役割を考慮すると、このようなバージョンのアップデートを追跡し、開発バージョンではない最新のBIOSをインストールすることが重要となります。

有名ベンダーは、特定のハードウェアモデル向けの最新BIOSリビジョンおよびアップデート手順を見つけやすくする検索インタフェースをサポートサイトに実装しています。

その他のファームウェア

現代のハードウェアでは、NIC、HBA、ストレージコントローラなどの多くのコンポーネントに固有の組み込みソフトウェアまたはファームウェアが搭載されています。このファームウェアも最新の状態にする必要があります。

ストレージレイヤ

ストレージが一貫していることを、ルートファイルシステムを含むすべてのストレージ領域でのファイルシステムチェック(およびリカバリ)を実行して確認します。ルートファイルシステムをチェックするには、サービスパックまたはインストールCDまたはDVDからレスキュー環境を使用します。

ソフトウェアレイヤ

破損したデータのチェック

ファイルシステムが正常にチェックされても、含まれるデータが破損している場合があります。この中には、オペレーティングシステムを適切に動作させるために必要なコードとデータが含まれている場合もあります。パッケージ管理システムには、制御対象のデータのチェックサムが格納されています。次のコマンド

rpm -Vva

を実行して、ファイルシステムの内容をこのチェックサムに照らして確認します。
このコマンドの出力をチェックし、バイナリやライブラリなど、構成ファイルではないファイルに変更がないか確認します。

ソフトウェアのインストールを最新に維持する

Novellでは、リリースした製品を長期にわたって積極的に維持します。このメンテナンスには、ソフトウェアの欠陥の修正と、新しいハードウェアモデルのドライバの追加が含まれます。Novellの提供するツール、特にSPidentツール、Novell Customer Center、および製品のオンラインアップデート機能を使用して、ソフトウェアインストールが最新であることを確認し、最新ではない場合はアップデートします。

最近のアップデートのチェック

アップデートされたパッケージに、新たな欠陥が含まれていることがあります。Novell SUSE Linux製品のパッケージ管理システムを使用して、最近インストールされたアップデートを確認できます。たとえば、次のコマンドを実行します。

rpm -qa --last

これは、欠陥が生じたソフトウェアアップデートの切り分けに役立ちます。アップデートしたパッケージによって、それまで機能していたシステムが破損した場合、サービス要求またはバグレポートを使用してNovell Technical Servicesまでお知らせくださいs。

Novell Technical Servicesからのサポート

基本情報

Novell Technical Servicesでサーバのハングまたは不安定の問題についてサービス要求を開く場合、効率的に解決するには以下の情報が必須です。

  • 問題の詳細な特徴(説明は前述)
  • サービス要求を開く前に、トラブルシューティング中にシステムおよび構成に行った変更の説明
  • TID 10100285 - Linuxの設定レポート」からのツールを使用して作成した、影響するシステムの構成レポートこのツールは「-v」引数を使用して実行し、追加のパッケージ管理情報を含めます。サービス要求が開かれしだい、このレポートをサービス要求に添付します。

クラッシュダンプ

サービス要求の処理中、分析用にシステムクラッシュダンプの提供を求められますが、これには一定のセットアップが必要となります(シリアルコンソールおよび2台目のサーバでダンプを受け取るなど)。詳細を関連TIDで参照して、準備できます。

Disclaimer

この情報は、米国Novell, Inc.およびノベル株式会社の内外から発生したものです。本文書の内容または本文書を使用した結果について、いかなる保証、表明または約束も行っていません。また、本文書の商品性、および特定目的への適合性について、いかなる黙示の保証も否認し、排除します。

本文書に記載されている会社名、製品名はそれぞれ各社の商品、商標または登録商標です。

  • ドキュメントID: 3301593
  • 作成年月日: 29-OCT-2007
  • 修正年月日: 24-DEC-2008
  • ドキュメントリビジョン:
  • 分類:
  • 対象NOVELL製品およびバージョン: Open Enterprise Server, SUSE Linux Enterprise Desktop, SUSE Linux Enterprise Server
  • カテゴリ: