ChatPaper.aiChatPaper

システムログ重大度分類における小型言語モデルと小型推論言語モデルのベンチマーク評価

Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification

January 12, 2026
著者: Yahya Masri, Emily Ma, Zifu Wang, Joseph Rogers, Chaowei Yang
cs.AI

要旨

システムログは現代のコンピューティングインフラの監視と診断に不可欠であるが、その規模と複雑さから、信頼性が高く効率的な自動解釈が求められる。重大度レベルはシステムログメッセージに事前定義されたメタデータであるため、単にそれを分類するだけのモデルでは実用的価値が限られ、システムログを解釈する基盤的な能力についてはほとんど明らかにしない。我々は、重大度分類を最終タスクとして扱うよりも、実行時ログ理解力を探るベンチマークとして扱う方が、より多くの情報を提供すると主張する。Linux本番サーバーからの実世界のjournalctlデータを用いて、ゼロショット、少数ショット、検索拡張生成(RAG)プロンプト条件下で、9つの小型言語モデル(SLM)および小型推論言語モデル(SRLM)を評価した。結果は顕著な階層化を示している。Qwen3-4BはRAGにおいて95.64%で最高精度を達成し、Gemma3-1Bは少数ショットプロンプトでの20.25%からRAGにより85.28%に改善した。特筆すべきは、小型のQwen3-0.6Bが、検索なしでは性能が低いにもかかわらず、88.12%の精度に達した点である。対照的に、Qwen3-1.7BやDeepSeek-R1-Distill-Qwen-1.5Bを含むいくつかのSRLMは、RAGと組み合わせると性能が大幅に低下した。効率性の測定でもモデル間の差が明らかになった:ほとんどのGemmaおよびLlama系統のモデルはログあたり1.2秒未満で推論を完了するのに対し、Phi-4-Mini-Reasoningは精度が10%未満であるにもかかわらず、ログあたり228秒を超える時間を要した。これらの知見は、(1) アーキテクチャ設計、(2) 訓練目的、(3) 厳格な出力制約下で検索された文脈を統合する能力が、性能を共同で決定することを示唆する。小型で配備可能なモデルを重視する本ベンチマークは、デジタルツイン(DT)システムのリアルタイム要件に適合し、重大度分類がモデルの能力とリアルタイム配備適性を評価するレンズとして機能し、根本原因分析(RCA)やより広範なDT統合への示唆を与えることを示している。
English
System logs are crucial for monitoring and diagnosing modern computing infrastructure, but their scale and complexity require reliable and efficient automated interpretation. Since severity levels are predefined metadata in system log messages, having a model merely classify them offers limited standalone practical value, revealing little about its underlying ability to interpret system logs. We argue that severity classification is more informative when treated as a benchmark for probing runtime log comprehension rather than as an end task. Using real-world journalctl data from Linux production servers, we evaluate nine small language models (SLMs) and small reasoning language models (SRLMs) under zero-shot, few-shot, and retrieval-augmented generation (RAG) prompting. The results reveal strong stratification. Qwen3-4B achieves the highest accuracy at 95.64% with RAG, while Gemma3-1B improves from 20.25% under few-shot prompting to 85.28% with RAG. Notably, the tiny Qwen3-0.6B reaches 88.12% accuracy despite weak performance without retrieval. In contrast, several SRLMs, including Qwen3-1.7B and DeepSeek-R1-Distill-Qwen-1.5B, degrade substantially when paired with RAG. Efficiency measurements further separate models: most Gemma and Llama variants complete inference in under 1.2 seconds per log, whereas Phi-4-Mini-Reasoning exceeds 228 seconds per log while achieving <10% accuracy. These findings suggest that (1) architectural design, (2) training objectives, and (3) the ability to integrate retrieved context under strict output constraints jointly determine performance. By emphasizing small, deployable models, this benchmark aligns with real-time requirements of digital twin (DT) systems and shows that severity classification serves as a lens for evaluating model competence and real-time deployability, with implications for root cause analysis (RCA) and broader DT integration.
PDF22January 31, 2026