Évaluation comparative des petits modèles de langage et des petits modèles de langage à raisonnement pour la classification de la sévérité des logs système
Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification
January 12, 2026
papers.authors: Yahya Masri, Emily Ma, Zifu Wang, Joseph Rogers, Chaowei Yang
cs.AI
papers.abstract
Les journaux système sont cruciaux pour la surveillance et le diagnostic des infrastructures informatiques modernes, mais leur volume et leur complexité nécessitent une interprétation automatisée fiable et efficace. Étant donné que les niveaux de sévérité sont des métadonnées prédéfinies dans les messages de journaux système, un modèle qui se contente de les classer offre une valeur pratique autonome limitée, révélant peu sur sa capacité sous-jacente à interpréter les journaux. Nous soutenons que la classification de la sévérité est plus instructive lorsqu'elle est traitée comme un benchmark pour sonder la compréhension des journaux en temps réel plutôt que comme une tâche finale. En utilisant des données journalctl réelles provenant de serveurs de production Linux, nous évaluons neuf petits modèles de langage (SLM) et petits modèles de raisonnement (SRLM) avec des prompts zero-shot, few-shot et par génération augmentée par retrieval (RAG). Les résultats révèlent une forte stratification. Qwen3-4B atteint la précision la plus élevée à 95,64% avec RAG, tandis que Gemma3-1B s'améliore de 20,25% en few-shot à 85,28% avec RAG. Notamment, le minuscule Qwen3-0.6B atteint 88,12% de précision malgré des performances faibles sans retrieval. En revanche, plusieurs SRLM, dont Qwen3-1.7B et DeepSeek-R1-Distill-Qwen-1.5B, se dégradent substantiellement lorsqu'associés à RAG. Les mesures d'efficacité distinguent davantage les modèles : la plupart des variantes Gemma et Llama terminent l'inférence en moins de 1,2 seconde par journal, tandis que Phi-4-Mini-Reasoning dépasse 228 secondes par journal tout en atteignant moins de 10% de précision. Ces résultats suggèrent que (1) la conception architecturale, (2) les objectifs d'entraînement et (3) la capacité à intégrer un contexte récupéré sous des contraintes de sortie strictes déterminent conjointement les performances. En privilégiant les modèles petits et déployables, ce benchmark s'aligne sur les exigences en temps réel des systèmes de jumeaux numériques (DT) et montre que la classification de la sévérité sert de loupe pour évaluer la compétence des modèles et leur déployabilité en temps réel, avec des implications pour l'analyse des causes racines (RCA) et une intégration plus large des DT.
English
System logs are crucial for monitoring and diagnosing modern computing infrastructure, but their scale and complexity require reliable and efficient automated interpretation. Since severity levels are predefined metadata in system log messages, having a model merely classify them offers limited standalone practical value, revealing little about its underlying ability to interpret system logs. We argue that severity classification is more informative when treated as a benchmark for probing runtime log comprehension rather than as an end task. Using real-world journalctl data from Linux production servers, we evaluate nine small language models (SLMs) and small reasoning language models (SRLMs) under zero-shot, few-shot, and retrieval-augmented generation (RAG) prompting. The results reveal strong stratification. Qwen3-4B achieves the highest accuracy at 95.64% with RAG, while Gemma3-1B improves from 20.25% under few-shot prompting to 85.28% with RAG. Notably, the tiny Qwen3-0.6B reaches 88.12% accuracy despite weak performance without retrieval. In contrast, several SRLMs, including Qwen3-1.7B and DeepSeek-R1-Distill-Qwen-1.5B, degrade substantially when paired with RAG. Efficiency measurements further separate models: most Gemma and Llama variants complete inference in under 1.2 seconds per log, whereas Phi-4-Mini-Reasoning exceeds 228 seconds per log while achieving <10% accuracy. These findings suggest that (1) architectural design, (2) training objectives, and (3) the ability to integrate retrieved context under strict output constraints jointly determine performance. By emphasizing small, deployable models, this benchmark aligns with real-time requirements of digital twin (DT) systems and shows that severity classification serves as a lens for evaluating model competence and real-time deployability, with implications for root cause analysis (RCA) and broader DT integration.