Сравнительный анализ малых языковых моделей и малых языковых моделей с логическим выводом для классификации серьезности системных логов
Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification
January 12, 2026
Авторы: Yahya Masri, Emily Ma, Zifu Wang, Joseph Rogers, Chaowei Yang
cs.AI
Аннотация
Системные журналы критически важны для мониторинга и диагностики современной вычислительной инфраструктуры, однако их масштаб и сложность требуют надежной и эффективной автоматизированной интерпретации. Поскольку уровни серьезности являются предопределенными метаданными в сообщениях системных журналов, модель, которая лишь классифицирует их, имеет ограниченную самостоятельную практическую ценность, мало раскрывая о ее фундаментальной способности интерпретировать системные журналы. Мы полагаем, что классификация серьезности более информативна, когда рассматривается как эталонный тест для исследования понимания журналов времени выполнения, а не как конечная задача. Используя реальные данные journalctl с рабочих серверов Linux, мы оцениваем девять малых языковых моделей (SLM) и малых языковых моделей с логическим выводом (SRLM) в условиях zero-shot, few-shot и генерации с дополнением retrieval-augmented generation (RAG). Результаты выявляют сильную стратификацию. Qwen3-4B достигает наивысшей точности в 95,64% с RAG, в то время как точность Gemma3-1B улучшается с 20,25% при few-shot до 85,28% с RAG. Примечательно, что крошечная Qwen3-0.6B достигает точности 88,12%, несмотря на слабую производительность без поиска. В отличие от них, несколько SRLM, включая Qwen3-1.7B и DeepSeek-R1-Distill-Qwen-1.5B, демонстрируют существенное ухудшение при использовании с RAG. Измерения эффективности дополнительно разделяют модели: большинство вариантов Gemma и Llama выполняют вывод менее чем за 1,2 секунды на журнал, тогда как Phi-4-Mini-Reasoning превышает 228 секунд на журнал при точности <10%. Эти находки позволяют предположить, что (1) архитектурный дизайн, (2) цели обучения и (3) способность интегрировать извлеченный контекст в условиях строгих ограничений на выходные данные совместно определяют производительность. Сосредоточившись на небольших, развертываемых моделях, данный эталонный тест соответствует требованиям реального времени систем цифровых двойников (DT) и показывает, что классификация серьезности служит линзой для оценки компетентности модели и возможности развертывания в реальном времени, с последствиями для анализа первопричин (RCA) и более широкой интеграции DT.
English
System logs are crucial for monitoring and diagnosing modern computing infrastructure, but their scale and complexity require reliable and efficient automated interpretation. Since severity levels are predefined metadata in system log messages, having a model merely classify them offers limited standalone practical value, revealing little about its underlying ability to interpret system logs. We argue that severity classification is more informative when treated as a benchmark for probing runtime log comprehension rather than as an end task. Using real-world journalctl data from Linux production servers, we evaluate nine small language models (SLMs) and small reasoning language models (SRLMs) under zero-shot, few-shot, and retrieval-augmented generation (RAG) prompting. The results reveal strong stratification. Qwen3-4B achieves the highest accuracy at 95.64% with RAG, while Gemma3-1B improves from 20.25% under few-shot prompting to 85.28% with RAG. Notably, the tiny Qwen3-0.6B reaches 88.12% accuracy despite weak performance without retrieval. In contrast, several SRLMs, including Qwen3-1.7B and DeepSeek-R1-Distill-Qwen-1.5B, degrade substantially when paired with RAG. Efficiency measurements further separate models: most Gemma and Llama variants complete inference in under 1.2 seconds per log, whereas Phi-4-Mini-Reasoning exceeds 228 seconds per log while achieving <10% accuracy. These findings suggest that (1) architectural design, (2) training objectives, and (3) the ability to integrate retrieved context under strict output constraints jointly determine performance. By emphasizing small, deployable models, this benchmark aligns with real-time requirements of digital twin (DT) systems and shows that severity classification serves as a lens for evaluating model competence and real-time deployability, with implications for root cause analysis (RCA) and broader DT integration.