Comparação de Modelos de Linguagem Pequenos e Modelos de Linguagem de Raciocínio Pequenos na Classificação de Severidade de Logs do Sistema
Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification
January 12, 2026
Autores: Yahya Masri, Emily Ma, Zifu Wang, Joseph Rogers, Chaowei Yang
cs.AI
Resumo
Os registros de sistema são cruciais para monitorar e diagnosticar a infraestrutura de computação moderna, mas sua escala e complexidade exigem interpretação automatizada confiável e eficiente. Uma vez que os níveis de severidade são metadados predefinidos nas mensagens de log do sistema, ter um modelo que apenas os classifica oferece valor prático independente limitado, revelando pouco sobre sua capacidade subjacente de interpretar logs do sistema. Argumentamos que a classificação de severidade é mais informativa quando tratada como um benchmark para sondar a compreensão de logs em tempo de execução, em vez de uma tarefa final. Utilizando dados reais do journalctl de servidores de produção Linux, avaliamos nove modelos de linguagem pequenos (SLMs) e modelos de linguagem de raciocínio pequenos (SRLMs) sob condições *zero-shot*, *few-shot* e *prompting* com geração aumentada por recuperação (RAG). Os resultados revelam uma forte estratificação. O Qwen3-4B atinge a maior precisão em 95,64% com RAG, enquanto o Gemma3-1B melhora de 20,25% sob *prompting* *few-shot* para 85,28% com RAG. Notavelmente, o minúsculo Qwen3-0.6B alcança 88,12% de precisão, apesar do fraco desempenho sem recuperação. Em contraste, vários SRLMs, incluindo Qwen3-1.7B e DeepSeek-R1-Distill-Qwen-1.5B, degradam-se substancialmente quando combinados com RAG. Medidas de eficiência separam ainda mais os modelos: a maioria das variantes Gemma e Llama concluem a inferência em menos de 1,2 segundos por log, enquanto o Phi-4-Mini-Reasoning excede 228 segundos por log, alcançando <10% de precisão. Essas descobertas sugerem que (1) o projeto arquitetônico, (2) os objetivos de treinamento e (3) a capacidade de integrar contexto recuperado sob restrições rigorosas de saída determinam conjuntamente o desempenho. Ao enfatizar modelos pequenos e implantáveis, este benchmark está alinhado com os requisitos em tempo real de sistemas de *digital twins* (DT) e mostra que a classificação de severidade serve como uma lente para avaliar a competência do modelo e a capacidade de implantação em tempo real, com implicações para a análise de causa raiz (RCA) e uma integração mais ampla de DT.
English
System logs are crucial for monitoring and diagnosing modern computing infrastructure, but their scale and complexity require reliable and efficient automated interpretation. Since severity levels are predefined metadata in system log messages, having a model merely classify them offers limited standalone practical value, revealing little about its underlying ability to interpret system logs. We argue that severity classification is more informative when treated as a benchmark for probing runtime log comprehension rather than as an end task. Using real-world journalctl data from Linux production servers, we evaluate nine small language models (SLMs) and small reasoning language models (SRLMs) under zero-shot, few-shot, and retrieval-augmented generation (RAG) prompting. The results reveal strong stratification. Qwen3-4B achieves the highest accuracy at 95.64% with RAG, while Gemma3-1B improves from 20.25% under few-shot prompting to 85.28% with RAG. Notably, the tiny Qwen3-0.6B reaches 88.12% accuracy despite weak performance without retrieval. In contrast, several SRLMs, including Qwen3-1.7B and DeepSeek-R1-Distill-Qwen-1.5B, degrade substantially when paired with RAG. Efficiency measurements further separate models: most Gemma and Llama variants complete inference in under 1.2 seconds per log, whereas Phi-4-Mini-Reasoning exceeds 228 seconds per log while achieving <10% accuracy. These findings suggest that (1) architectural design, (2) training objectives, and (3) the ability to integrate retrieved context under strict output constraints jointly determine performance. By emphasizing small, deployable models, this benchmark aligns with real-time requirements of digital twin (DT) systems and shows that severity classification serves as a lens for evaluating model competence and real-time deployability, with implications for root cause analysis (RCA) and broader DT integration.