ChatPaper.aiChatPaper

시스템 로그 심각도 분류 작업에 대한 소규모 언어 모델 및 소규모 추론 언어 모델 벤치마킹

Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification

January 12, 2026
저자: Yahya Masri, Emily Ma, Zifu Wang, Joseph Rogers, Chaowei Yang
cs.AI

초록

시스템 로그는 현대 컴퓨팅 인프라의 모니터링과 진단에 핵심적이지만, 그 규모와 복잡성으로 인해 신뢰할 수 있고 효율적인 자동 해석이 필요합니다. 심각도 수준은 시스템 로그 메시지에 미리 정의된 메타데이터이므로, 모델이 이를 단순히 분류하는 것만으로는 독립적인 실용 가치가 제한적이며 시스템 로그 해석의 근본적인 능력을 거의 드러내지 않습니다. 우리는 심각도 분류가 최종 작업으로보다는 런타임 로그 이해력을 탐색하는 벤치마크로 활용될 때 더 많은 정보를 제공한다고 주장합니다. Linux 프로덕션 서버의 실제 journalctl 데이터를 사용하여 9개의 소형 언어 모델(SLM)과 소형 추론 언어 모델(SRLM)을 제로샷, 퓨샷, 검색 증강 생성(RAG) 프롬프팅 조건에서 평가했습니다. 결과는 뚜렷한 성능 계층화를 보여줍니다. Qwen3-4B는 RAG 적용 시 95.64%로 가장 높은 정확도를 달성한 반면, Gemma3-1B는 퓨샷 프롬프팅에서 20.25%였던 정확도가 RAG 적용 시 85.28%로 향상되었습니다. 특히 소형 Qwen3-0.6B는 검색 없이는 약한 성능을 보였음에도 불구하고 88.12%의 정확도에 도달했습니다. 대조적으로 Qwen3-1.7B 및 DeepSeek-R1-Distill-Qwen-1.5B를 포함한 여러 SRLM은 RAG와 결합했을 때 성능이 현저히 저하되었습니다. 효율성 측정에서도 모델 간 차이가 두드러졌습니다: 대부분의 Gemma 및 Llama 변종은 로그 당 1.2초 미만으로 추론을 완료한 반면, Phi-4-Mini-Reasoning은 10% 미만의 정확도를 달성하면서도 로그 당 228초를 초과하는 시간이 소요되었습니다. 이러한 결과는 (1) 아키텍처 설계, (2) 훈련 목표, 그리고 (3) 엄격한 출력 제약 하에서 검색된 맥락을 통합하는 능력이 성능을 종합적으로 결정함을 시사합니다. 배포 가능한 소형 모델에 중점을 둔 이 벤치마크는 디지털 트윈(DT) 시스템의 실시간 요구사항과 부합하며, 심각도 분류가 모델의 능력과 실시간 배포 가능성을 평가하는 렌즈 역할을 하여 근본 원인 분석(RCA) 및 더 넓은 DT 통합에 시사점을 제공함을 보여줍니다.
English
System logs are crucial for monitoring and diagnosing modern computing infrastructure, but their scale and complexity require reliable and efficient automated interpretation. Since severity levels are predefined metadata in system log messages, having a model merely classify them offers limited standalone practical value, revealing little about its underlying ability to interpret system logs. We argue that severity classification is more informative when treated as a benchmark for probing runtime log comprehension rather than as an end task. Using real-world journalctl data from Linux production servers, we evaluate nine small language models (SLMs) and small reasoning language models (SRLMs) under zero-shot, few-shot, and retrieval-augmented generation (RAG) prompting. The results reveal strong stratification. Qwen3-4B achieves the highest accuracy at 95.64% with RAG, while Gemma3-1B improves from 20.25% under few-shot prompting to 85.28% with RAG. Notably, the tiny Qwen3-0.6B reaches 88.12% accuracy despite weak performance without retrieval. In contrast, several SRLMs, including Qwen3-1.7B and DeepSeek-R1-Distill-Qwen-1.5B, degrade substantially when paired with RAG. Efficiency measurements further separate models: most Gemma and Llama variants complete inference in under 1.2 seconds per log, whereas Phi-4-Mini-Reasoning exceeds 228 seconds per log while achieving <10% accuracy. These findings suggest that (1) architectural design, (2) training objectives, and (3) the ability to integrate retrieved context under strict output constraints jointly determine performance. By emphasizing small, deployable models, this benchmark aligns with real-time requirements of digital twin (DT) systems and shows that severity classification serves as a lens for evaluating model competence and real-time deployability, with implications for root cause analysis (RCA) and broader DT integration.
PDF22January 31, 2026