ChatPaper.aiChatPaper

대형 언어 모델(LLM)의 벤치마크 기반 평가의 견고성과 신뢰성에 관하여

On Robustness and Reliability of Benchmark-Based Evaluation of LLMs

September 4, 2025
저자: Riccardo Lunardi, Vincenzo Della Mea, Stefano Mizzaro, Kevin Roitero
cs.AI

초록

대규모 언어 모델(LLM)의 효과성은 일반적으로 MMLU, ARC-C, HellaSwag와 같은 벤치마크를 통해 평가되며, 이때 질문들은 원본 그대로 고정된 표준 형식으로 제시됩니다. 그러나 실제 응용 사례에서는 언어적 다양성이 포함되며, 동일한 질문이나 쿼리의 다양한 재구성에 대해 모델이 효과성을 유지해야 합니다. 본 연구에서는 LLM이 패러프레이즈된 벤치마크 질문에 대해 얼마나 강건한지를 체계적으로 평가하고, 벤치마크 기반 평가가 모델의 능력을 신뢰할 수 있게 측정하는지 조사합니다. 우리는 6가지 일반적인 벤치마크의 모든 질문에 대해 다양한 패러프레이즈를 체계적으로 생성하고, 크기와 효과성이 다른 34개의 최신 LLM의 효과성 변화를 측정했습니다. 연구 결과, LLM의 순위는 패러프레이즈된 입력에 대해 상대적으로 안정적으로 유지되지만, 절대적인 효과성 점수는 변화하며 크게 감소하는 것으로 나타났습니다. 이는 LLM이 언어적 다양성에 어려움을 겪고 있음을 시사하며, 이들의 일반화 능력과 평가 방법론에 대한 우려를 제기합니다. 더욱이, 관찰된 성능 하락은 벤치마크 기반 평가의 신뢰성에 의문을 제기하며, 높은 벤치마크 점수가 실제 입력 변동에 대한 모델의 강건성을 완전히 반영하지 못할 수 있음을 나타냅니다. 우리는 이러한 발견이 LLM 평가 방법론에 미치는 함의를 논의하며, 실제 배포 시나리오를 더 잘 반영하는 강건성 인식 벤치마크의 필요성을 강조합니다.
English
Large Language Models (LLMs) effectiveness is usually evaluated by means of benchmarks such as MMLU, ARC-C, or HellaSwag, where questions are presented in their original wording, thus in a fixed, standardized format. However, real-world applications involve linguistic variability, requiring models to maintain their effectiveness across diverse rewordings of the same question or query. In this study, we systematically assess the robustness of LLMs to paraphrased benchmark questions and investigate whether benchmark-based evaluations provide a reliable measure of model capabilities. We systematically generate various paraphrases of all the questions across six different common benchmarks, and measure the resulting variations in effectiveness of 34 state-of-the-art LLMs, of different size and effectiveness. Our findings reveal that while LLM rankings remain relatively stable across paraphrased inputs, absolute effectiveness scores change, and decline significantly. This suggests that LLMs struggle with linguistic variability, raising concerns about their generalization abilities and evaluation methodologies. Furthermore, the observed performance drop challenges the reliability of benchmark-based evaluations, indicating that high benchmark scores may not fully capture a model's robustness to real-world input variations. We discuss the implications of these findings for LLM evaluation methodologies, emphasizing the need for robustness-aware benchmarks that better reflect practical deployment scenarios.
PDF32September 8, 2025