Benchmarking von kleinen Sprachmodellen und kleinen Sprachmodellen für logisches Denken bei der Klassifizierung des Schweregrads von Systemprotokollen
Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification
January 12, 2026
papers.authors: Yahya Masri, Emily Ma, Zifu Wang, Joseph Rogers, Chaowei Yang
cs.AI
papers.abstract
System-Protokolle sind entscheidend für die Überwachung und Diagnose moderner IT-Infrastrukturen, doch ihr Umfang und ihre Komplexität erfordern eine zuverlässige und effiziente automatische Interpretation. Da Schweregrade vordefinierte Metadaten in Systemprotokollnachrichten sind, bietet ein Modell, das diese lediglich klassifiziert, nur begrenzten eigenständigen praktischen Nutzen und gibt wenig Aufschluss über dessen grundlegende Fähigkeit, Systemprotokolle zu interpretieren. Wir vertreten die Auffassung, dass die Schweregradklassifizierung informativer ist, wenn sie als Benchmark zur Untersuchung des Runtime-Protokollverständnisses dient, anstatt als Endaufgabe. Anhand realer journalctl-Daten von Linux-Produktionsservern evaluieren wir neun Small Language Models (SLMs) und Small Reasoning Language Models (SRLMs) mittels Zero-Shot-, Few-Shot- und Retrieval-Augmented Generation (RAG)-Prompting. Die Ergebnisse zeigen eine starke Schichtung. Qwen3-4B erzielt mit RAG die höchste Genauigkeit von 95,64 %, während Gemma3-1B sich von 20,25 % unter Few-Shot-Prompting auf 85,28 % mit RAG verbessert. Bemerkenswerterweise erreicht das winzige Qwen3-0.6B eine Genauigkeit von 88,12 %, trotz schwacher Leistung ohne Retrieval. Im Gegensatz dazu verschlechtern sich mehrere SRLMs, einschließlich Qwen3-1.7B und DeepSeek-R1-Distill-Qwen-1.5B, erheblich in Kombination mit RAG. Effizienzmessungen trennen die Modelle weiter: Die meisten Gemma- und Llama-Varianten schließen Inferenzen in unter 1,2 Sekunden pro Protokoll ab, während Phi-4-Mini-Reasoning über 228 Sekunden pro Protokoll benötigt und dabei <10 % Genauigkeit erreicht. Diese Ergebnisse legen nahe, dass (1) Architekturdesign, (2) Trainingsziele und (3) die Fähigkeit, abgerufenen Kontext unter strengen Ausgabebeschränkungen zu integrieren, gemeinsam die Leistung bestimmen. Indem dieser Benchmark kleine, einsetzbare Modelle betont, entspricht er den Echtzeitanforderungen von Digital Twin (DT)-Systemen und zeigt, dass die Schweregradklassifizierung als Linse zur Bewertung von Modellkompetenz und Echtzeitfähigkeit dient, mit Implikationen für Root Cause Analysis (RCA) und breitere DT-Integration.
English
System logs are crucial for monitoring and diagnosing modern computing infrastructure, but their scale and complexity require reliable and efficient automated interpretation. Since severity levels are predefined metadata in system log messages, having a model merely classify them offers limited standalone practical value, revealing little about its underlying ability to interpret system logs. We argue that severity classification is more informative when treated as a benchmark for probing runtime log comprehension rather than as an end task. Using real-world journalctl data from Linux production servers, we evaluate nine small language models (SLMs) and small reasoning language models (SRLMs) under zero-shot, few-shot, and retrieval-augmented generation (RAG) prompting. The results reveal strong stratification. Qwen3-4B achieves the highest accuracy at 95.64% with RAG, while Gemma3-1B improves from 20.25% under few-shot prompting to 85.28% with RAG. Notably, the tiny Qwen3-0.6B reaches 88.12% accuracy despite weak performance without retrieval. In contrast, several SRLMs, including Qwen3-1.7B and DeepSeek-R1-Distill-Qwen-1.5B, degrade substantially when paired with RAG. Efficiency measurements further separate models: most Gemma and Llama variants complete inference in under 1.2 seconds per log, whereas Phi-4-Mini-Reasoning exceeds 228 seconds per log while achieving <10% accuracy. These findings suggest that (1) architectural design, (2) training objectives, and (3) the ability to integrate retrieved context under strict output constraints jointly determine performance. By emphasizing small, deployable models, this benchmark aligns with real-time requirements of digital twin (DT) systems and shows that severity classification serves as a lens for evaluating model competence and real-time deployability, with implications for root cause analysis (RCA) and broader DT integration.