大規模言語モデルのベンチマーク評価における頑健性と信頼性について
On Robustness and Reliability of Benchmark-Based Evaluation of LLMs
September 4, 2025
著者: Riccardo Lunardi, Vincenzo Della Mea, Stefano Mizzaro, Kevin Roitero
cs.AI
要旨
大規模言語モデル(LLM)の有効性は、通常、MMLU、ARC-C、HellaSwagなどのベンチマークによって評価されます。これらのベンチマークでは、質問は元の文言で提示されるため、固定された標準化された形式で行われます。しかし、現実世界のアプリケーションでは言語的多様性が関与し、モデルが同じ質問やクエリの多様な言い換えに対して有効性を維持する必要があります。本研究では、LLMのベンチマーク質問の言い換えに対する頑健性を体系的に評価し、ベンチマークに基づく評価がモデルの能力を信頼できる尺度として提供するかどうかを調査します。私たちは、6つの異なる一般的なベンチマークのすべての質問に対して、体系的にさまざまな言い換えを生成し、34の最先端のLLM(サイズと有効性が異なる)の有効性の変化を測定します。私たちの調査結果は、LLMのランキングが言い換えられた入力に対して比較的安定している一方で、絶対的な有効性スコアが変化し、大幅に低下することを明らかにしています。これは、LLMが言語的多様性に苦戦していることを示唆し、その汎化能力と評価方法論に関する懸念を提起します。さらに、観察された性能の低下は、ベンチマークに基づく評価の信頼性に疑問を投げかけ、高いベンチマークスコアが現実世界の入力変動に対するモデルの頑健性を完全に捉えていない可能性を示しています。私たちは、これらの調査結果がLLMの評価方法論に与える影響について議論し、実践的な展開シナリオをよりよく反映する頑健性を意識したベンチマークの必要性を強調します。
English
Large Language Models (LLMs) effectiveness is usually evaluated by means of
benchmarks such as MMLU, ARC-C, or HellaSwag, where questions are presented in
their original wording, thus in a fixed, standardized format. However,
real-world applications involve linguistic variability, requiring models to
maintain their effectiveness across diverse rewordings of the same question or
query. In this study, we systematically assess the robustness of LLMs to
paraphrased benchmark questions and investigate whether benchmark-based
evaluations provide a reliable measure of model capabilities. We systematically
generate various paraphrases of all the questions across six different common
benchmarks, and measure the resulting variations in effectiveness of 34
state-of-the-art LLMs, of different size and effectiveness. Our findings reveal
that while LLM rankings remain relatively stable across paraphrased inputs,
absolute effectiveness scores change, and decline significantly. This suggests
that LLMs struggle with linguistic variability, raising concerns about their
generalization abilities and evaluation methodologies. Furthermore, the
observed performance drop challenges the reliability of benchmark-based
evaluations, indicating that high benchmark scores may not fully capture a
model's robustness to real-world input variations. We discuss the implications
of these findings for LLM evaluation methodologies, emphasizing the need for
robustness-aware benchmarks that better reflect practical deployment scenarios.