ChatPaper.aiChatPaper

Evaluación Comparativa de Modelos de Lenguaje Pequeños y Modelos de Lenguaje de Razonamiento Pequeños en la Clasificación de Gravedad de Registros del Sistema

Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification

January 12, 2026
Autores: Yahya Masri, Emily Ma, Zifu Wang, Joseph Rogers, Chaowei Yang
cs.AI

Resumen

Los registros del sistema son cruciales para monitorizar y diagnosticar la infraestructura informática moderna, pero su escala y complejidad requieren una interpretación automatizada fiable y eficiente. Dado que los niveles de severidad son metadatos predefinidos en los mensajes de registro del sistema, que un modelo simplemente los clasifique ofrece un valor práctico independiente limitado, revelando poco sobre su capacidad subyacente para interpretar dichos registros. Sostenemos que la clasificación por severidad es más informativa cuando se trata como un benchmark para sondear la comprensión de registros en tiempo de ejecución, en lugar de como una tarea final. Utilizando datos reales de journalctl procedentes de servidores de producción Linux, evaluamos nueve modelos de lenguaje pequeños (SLM) y modelos de lenguaje de razonamiento pequeños (SRLM) bajo estrategias de prompting zero-shot, few-shot y generación aumentada por recuperación (RAG). Los resultados revelan una fuerte estratificación. Qwen3-4B logra la mayor precisión, un 95.64%, con RAG, mientras que Gemma3-1B mejora desde un 20.25% bajo prompting few-shot hasta un 85.28% con RAG. Notablemente, el minúsculo Qwen3-0.6B alcanza un 88.12% de precisión a pesar de su débil rendimiento sin recuperación. En contraste, varios SRLM, incluyendo Qwen3-1.7B y DeepSeek-R1-Distill-Qwen-1.5B, se degradan sustancialmente cuando se combinan con RAG. Las mediciones de eficiencia separan aún más a los modelos: la mayoría de las variantes de Gemma y Llama completan la inferencia en menos de 1.2 segundos por registro, mientras que Phi-4-Mini-Reasoning supera los 228 segundos por registro logrando una precisión <10%. Estos hallazgos sugieren que (1) el diseño arquitectónico, (2) los objetivos de entrenamiento y (3) la capacidad de integrar contexto recuperado bajo restricciones estrictas de salida determinan conjuntamente el rendimiento. Al enfatizar modelos pequeños y desplegables, este benchmark se alinea con los requisitos de tiempo real de los sistemas de gemelos digitales (DT) y muestra que la clasificación por severidad sirve como una lente para evaluar la competencia del modelo y su capacidad de despliegue en tiempo real, con implicaciones para el análisis de causa raíz (RCA) y una integración más amplia de DT.
English
System logs are crucial for monitoring and diagnosing modern computing infrastructure, but their scale and complexity require reliable and efficient automated interpretation. Since severity levels are predefined metadata in system log messages, having a model merely classify them offers limited standalone practical value, revealing little about its underlying ability to interpret system logs. We argue that severity classification is more informative when treated as a benchmark for probing runtime log comprehension rather than as an end task. Using real-world journalctl data from Linux production servers, we evaluate nine small language models (SLMs) and small reasoning language models (SRLMs) under zero-shot, few-shot, and retrieval-augmented generation (RAG) prompting. The results reveal strong stratification. Qwen3-4B achieves the highest accuracy at 95.64% with RAG, while Gemma3-1B improves from 20.25% under few-shot prompting to 85.28% with RAG. Notably, the tiny Qwen3-0.6B reaches 88.12% accuracy despite weak performance without retrieval. In contrast, several SRLMs, including Qwen3-1.7B and DeepSeek-R1-Distill-Qwen-1.5B, degrade substantially when paired with RAG. Efficiency measurements further separate models: most Gemma and Llama variants complete inference in under 1.2 seconds per log, whereas Phi-4-Mini-Reasoning exceeds 228 seconds per log while achieving <10% accuracy. These findings suggest that (1) architectural design, (2) training objectives, and (3) the ability to integrate retrieved context under strict output constraints jointly determine performance. By emphasizing small, deployable models, this benchmark aligns with real-time requirements of digital twin (DT) systems and shows that severity classification serves as a lens for evaluating model competence and real-time deployability, with implications for root cause analysis (RCA) and broader DT integration.
PDF22January 31, 2026