ChatPaper.aiChatPaper

Valutazione Comparativa di Modelli Linguistici di Piccole Dimensioni e Modelli Linguistici per il Ragionamento nella Classificazione della Gravità dei Log di Sistema

Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification

January 12, 2026
Autori: Yahya Masri, Emily Ma, Zifu Wang, Joseph Rogers, Chaowei Yang
cs.AI

Abstract

I log di sistema sono cruciali per il monitoraggio e la diagnostica dell'infrastruttura informatica moderna, ma la loro scala e complessità richiedono un'interpretazione automatizzata affidabile ed efficiente. Poiché i livelli di gravità sono metadati predefiniti nei messaggi di log di sistema, avere un modello che si limiti a classificarli offre un valore pratico autonomo limitato, rivelando poco sulla sua capacità sottostante di interpretare i log di sistema. Sosteniamo che la classificazione della gravità sia più informativa quando trattata come benchmark per sondare la comprensione runtime dei log, piuttosto che come compito finale. Utilizzando dati journalctl del mondo reale provenienti da server Linux di produzione, valutiamo nove piccoli modelli linguistici (SLM) e piccoli modelli linguistici di ragionamento (SRLM) con prompt zero-shot, few-shot e retrieval-augmented generation (RAG). I risultati rivelano una forte stratificazione. Qwen3-4B raggiunge la massima accuratezza al 95,64% con RAG, mentre Gemma3-1B migliora dal 20,25% sotto prompt few-shot all'85,28% con RAG. Notevolmente, il minuscolo Qwen3-0.6B raggiunge un'accuratezza dell'88,12% nonostante le scarse prestazioni senza retrieval. Al contrario, diversi SRLM, inclusi Qwen3-1.7B e DeepSeek-R1-Distill-Qwen-1.5B, peggiorano sostanzialmente quando abbinati a RAG. Le misurazioni di efficienza separano ulteriormente i modelli: la maggior parte delle varianti Gemma e Llama completano l'inferenza in meno di 1,2 secondi per log, mentre Phi-4-Mini-Reasoning supera i 228 secondi per log raggiungendo un'accuratezza <10%. Questi risultati suggeriscono che (1) il design architetturale, (2) gli obiettivi di addestramento e (3) la capacità di integrare il contesto recuperato sotto stringenti vincoli di output determinano congiuntamente le prestazioni. Enfatizzando modelli piccoli e distribuibili, questo benchmark si allinea con i requisiti in tempo reale dei sistemi di gemello digitale (DT) e mostra che la classificazione della gravità funge da lente per valutare la competenza del modello e la distribuibilità in tempo reale, con implicazioni per l'analisi della causa radice (RCA) e una più ampia integrazione DT.
English
System logs are crucial for monitoring and diagnosing modern computing infrastructure, but their scale and complexity require reliable and efficient automated interpretation. Since severity levels are predefined metadata in system log messages, having a model merely classify them offers limited standalone practical value, revealing little about its underlying ability to interpret system logs. We argue that severity classification is more informative when treated as a benchmark for probing runtime log comprehension rather than as an end task. Using real-world journalctl data from Linux production servers, we evaluate nine small language models (SLMs) and small reasoning language models (SRLMs) under zero-shot, few-shot, and retrieval-augmented generation (RAG) prompting. The results reveal strong stratification. Qwen3-4B achieves the highest accuracy at 95.64% with RAG, while Gemma3-1B improves from 20.25% under few-shot prompting to 85.28% with RAG. Notably, the tiny Qwen3-0.6B reaches 88.12% accuracy despite weak performance without retrieval. In contrast, several SRLMs, including Qwen3-1.7B and DeepSeek-R1-Distill-Qwen-1.5B, degrade substantially when paired with RAG. Efficiency measurements further separate models: most Gemma and Llama variants complete inference in under 1.2 seconds per log, whereas Phi-4-Mini-Reasoning exceeds 228 seconds per log while achieving <10% accuracy. These findings suggest that (1) architectural design, (2) training objectives, and (3) the ability to integrate retrieved context under strict output constraints jointly determine performance. By emphasizing small, deployable models, this benchmark aligns with real-time requirements of digital twin (DT) systems and shows that severity classification serves as a lens for evaluating model competence and real-time deployability, with implications for root cause analysis (RCA) and broader DT integration.
PDF22March 16, 2026