ChatPaper.aiChatPaper

Benchmarking van Kleine Taalmodellen en Kleine Redeneertaalmodellen voor Classificatie van Ernstniveau in Systeemlogboeken

Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification

January 12, 2026
Auteurs: Yahya Masri, Emily Ma, Zifu Wang, Joseph Rogers, Chaowei Yang
cs.AI

Samenvatting

Systeemlogboeken zijn cruciaal voor het monitoren en diagnosticeren van moderne computerinfrastructuren, maar hun schaal en complexiteit vereisen betrouwbare en efficiënte geautomatiseerde interpretatie. Omdat ernstniveaus vooraf gedefinieerde metadata in systeemlogberichten zijn, biedt een model dat deze slechts classificeert beperkte op zichzelf staande praktische waarde en onthult het weinig over het onderliggende vermogen om systeemlogboeken te interpreteren. Wij stellen dat ernstclassificatie informatiever is wanneer het wordt behandeld als een benchmark voor het onderzoeken van runtime logbegrip, in plaats van als een eindtaak. Met real-world journalctl-gegevens van Linux-productieservers evalueren wij negen small language models (SLM's) en small reasoning language models (SRLM's) onder zero-shot, few-shot en retrieval-augmented generation (RAG) prompting. De resultaten tonen een sterke stratificatie. Qwen3-4B behaalt de hoogste nauwkeurigheid van 95,64% met RAG, terwijl Gemma3-1B verbetert van 20,25% onder few-shot prompting naar 85,28% met RAG. Opmerkelijk is dat de kleine Qwen3-0.6B een nauwkeurigheid van 88,12% bereikt ondanks zwakke prestaties zonder retrieval. Daarentegen verslechteren verschillende SRLM's, waaronder Qwen3-1.7B en DeepSeek-R1-Distill-Qwen-1.5B, aanzienlijk wanneer ze worden gecombineerd met RAG. Efficiëntiemetingen onderscheiden de modellen verder: de meeste Gemma- en Llama-varianten voltooien de inferentie in minder dan 1,2 seconde per log, terwijl Phi-4-Mini-Reasoning meer dan 228 seconden per log overschrijdt bij een nauwkeurigheid van <10%. Deze bevindingen suggereren dat (1) architectonisch ontwerp, (2) trainingsdoelstellingen en (3) het vermogen om opgehaalde context te integreren onder strikte uitvoerbeperkingen gezamenlijk de prestaties bepalen. Door de nadruk te leggen op kleine, inzetbare modellen, sluit deze benchmark aan bij de real-time vereisten van digital twin (DT)-systemen en toont het dat ernstclassificatie dient als een lens voor het evalueren van modelcompetentie en real-time inzetbaarheid, met implicaties voor root cause analysis (RCA) en bredere DT-integratie.
English
System logs are crucial for monitoring and diagnosing modern computing infrastructure, but their scale and complexity require reliable and efficient automated interpretation. Since severity levels are predefined metadata in system log messages, having a model merely classify them offers limited standalone practical value, revealing little about its underlying ability to interpret system logs. We argue that severity classification is more informative when treated as a benchmark for probing runtime log comprehension rather than as an end task. Using real-world journalctl data from Linux production servers, we evaluate nine small language models (SLMs) and small reasoning language models (SRLMs) under zero-shot, few-shot, and retrieval-augmented generation (RAG) prompting. The results reveal strong stratification. Qwen3-4B achieves the highest accuracy at 95.64% with RAG, while Gemma3-1B improves from 20.25% under few-shot prompting to 85.28% with RAG. Notably, the tiny Qwen3-0.6B reaches 88.12% accuracy despite weak performance without retrieval. In contrast, several SRLMs, including Qwen3-1.7B and DeepSeek-R1-Distill-Qwen-1.5B, degrade substantially when paired with RAG. Efficiency measurements further separate models: most Gemma and Llama variants complete inference in under 1.2 seconds per log, whereas Phi-4-Mini-Reasoning exceeds 228 seconds per log while achieving <10% accuracy. These findings suggest that (1) architectural design, (2) training objectives, and (3) the ability to integrate retrieved context under strict output constraints jointly determine performance. By emphasizing small, deployable models, this benchmark aligns with real-time requirements of digital twin (DT) systems and shows that severity classification serves as a lens for evaluating model competence and real-time deployability, with implications for root cause analysis (RCA) and broader DT integration.
PDF22January 31, 2026