株式会社エヌ・アンド・アイ・システムズ

営業時間 9:00~18:00(土・日・祝日は除く)

株式会社エヌ・アンド・アイ・システムズ

昼夜問わず働くITインフラエンジニア
DX

はじめに

⽇本のITインフラを⽀えてきたのは、数多くのインフラエンジニアの皆様です。24時間365⽇稼働するサーバーやネットワークを守るため、昼夜を問わず対応してきた経験をお持ちの⽅も少なくないでしょう。しかし、いま私たちは⼀つの⼤きな課題に直⾯しています。それは「⼈⼝減少」と「⼈材不⾜」です。
現在の保守・運⽤のビジネスモデルは「システムが異常を検知し、⼈が⼀次対応を⾏う」ことを前提に成り⽴っています。しかし、今後10年、20年を⾒据えたとき、その前提は持続不可能になりつつあります。ベテラン⼈材の退職、若⼿⼈材の不⾜、そしてシステム規模の拡⼤。この三重苦を前に、従来のやり⽅を続けるのは難しい状況です。

弊社はインフラエンジニアを多く抱える企業だからこそ、この課題を強く認識しています。そして今、その解決策を模索するために、 AIと⾃動化技術を⽤いた”サーバーメンテナンス⾃動異常検知・初⾒レポート⽣成”システム の実験に着⼿しました。本稿では、その取り組みの概要をご紹介いたします。

⽇本のインフラエンジニアが抱える課題

  1.  対応範囲の広さ
    サーバー、ネットワーク、ストレージ、クラウド、セキュリティ…。インフラエンジニアは守備範囲が広く、習得すべき知識量が膨⼤です。
  2.  属⼈化
    障害対応においては、経験値に基づく「勘とノウハウ」がものを⾔います。しかし、その知識が⼗分に共有されないまま個⼈に依存してしまう現実があります。
  3.  24時間対応の負担
    障害は時間を選びません。夜間や休⽇の呼び出し対応は、エンジニアの負担となり、離職要因にもなっています。
  4.  ⼈⼝減少の影響
    そもそも労働⼈⼝が減っていく中で、今の保守要員を確保し続けること⾃体が困難です。これらの課題を踏まえると、 “⼈⼿に頼るモデル”から”⼈とAIが協調するモデル” への移⾏が不可⽋であると考えています。

弊社の実験的取り組み

弊社では現在、以下の技術を組み合わせた実験を⾏っています。

  1. ⼤規模⾔語モデル(LLM)¹
    サーバーから収集した多様なデータを解析し、異常の有無やその可能性を判断します。
  2. vLLM²
    LLMを効率的に稼働させるための推論基盤。オンプレGPU環境でも⾼速に応答できるよう最適化しています。
  3. LangGraph³
    データ収集、異常検知、レポート⽣成、通知といった⼀連のワークフローを⾃動化するための基盤です。
  4. 多様なデータ収集(以下参照)
    ・サーバーメトリクス(CPU使⽤率、メモリ使⽤量、ディスク残量など)
    ・ハードウェア状態(温度、ファン回転数、電源ユニット)
    ・プロセス情報やサービス状態
    ・ログ情報(syslog、アプリケーションログ)
    ・天井部に設置した監視カメラによる筐体外観の変化検知
  5. 初⾒レポートの⾃動⽣成
    LLMが「現在の状況」「想定される障害パターンと確率」「対応に必要なリソースや機材」を整理し、障害レベルに応じて関係者に⾃動通知します。

この仕組みによって、エンジニアは「初動調査にかける時間」を⼤幅に削減できます。⼈が現場に到着する前に、システムが初⾒をまとめて共有するのです。

技術開発の狙い

私たちがこの実験を進める狙いは単なる効率化ではありません。 “⼈が⼈にしかできない判断(=コア業務)に集中できる環境を整えること” です。
障害検知や初動対応は、必ずしも⼈が⾏う必要はありません。むしろ⼈がやるには負担が⼤きく、属⼈化を⽣みやすい領域です。そこでAIが⼀次対応を担い、⼈はより⾼度な分析や復旧計画の⽴案に専念できるようにする。これが、インフラエンジニアという職種を持続可能にする鍵だと考えています。

社会的意義

この取り組みは、単なる社内効率化を超えた、以下のような社会的意義を持っています。

  • ⼈⼝減少時代における社会インフラの持続性確保
    電⼒・通信・⾦融など、社会を⽀えるインフラは⽌められません。その維持には効率的な技術導⼊が不可⽋です。
  • インフラエンジニアの働き⽅改⾰
    夜間呼び出しや過剰な負担を減らすことで、エンジニアが⻑く働き続けられる環境を実現します。
  • 技術⼈材育成
    初⾒レポートの⾃動⽣成により、若⼿エンジニアもベテランのノウハウを早期に学ぶことができます。

今後の展望

この技術が実⽤化されれば、将来的には以下の⽅向性が⾒込めます。

  1. 予兆検知と予防保守
    障害発⽣後の対応だけでなく、傾向分析による「予兆検知」と「予防保守」が可能になります。
  2. ⾃動修復への拡張
    レベルが低い障害については、AIが⾃動で復旧コマンドを実⾏する仕組みも検討できます。
  3. マルチサーバー・マルチサイト対応
    データセンター全体を対象とした広域的な監視・⾃動化への展開が可能です。

おわりに

私たちはインフラエンジニアを多く抱える企業として、⽇本のインフラ運⽤を取り巻く課題に真正⾯から向き合っています。⼈⼝減少によって現⾏モデルが持続不可能になる未来は避けられません。だからこそ、AIを活⽤した新しいモデルを積極的に模索していく必要があるのです。
本稿で紹介した取り組みはまだ実験段階にあります。しかし、これを⼀歩ずつ現実のものとしていくことで、インフラエンジニアの働き⽅を変え、⽇本社会の持続可能性を⽀える技術基盤を築けると信じています。

注釈

1. LLM(Large Language Model): ⼤規模⾔語モデル。膨⼤なテキストを学習し、⼈間のように⾃然な⽂章を⽣成・解析できるAI技術。
2. vLLM: LLM推論を効率的に⾏うためのライブラリ。⾼いスループットと低レイテンシでの推論を可能にする。
3. LangGraph: AIエージェントのワークフローを構築・制御するためのフレームワーク。データ収集や解析、通知を⼀連の流れで⾃動化できる。

 

サービス事業統括本部
S

株式会社エヌ・アンド・アイ・システムズ

株式会社エヌ・アンド・アイ・システムズ