ChatPaper.aiChatPaper

LLMの評価について知っていることを忘れる - LLMはカメレオンのようである

Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon

February 11, 2025
著者: Nurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen
cs.AI

要旨

大規模言語モデル(LLMs)は一般的なベンチマークで優れた成績を収めるように見えますが、これらの高得点は真の言語理解よりもデータセット固有の表面的手掛かりに過度に依存している可能性があります。私たちは、カメレオンベンチマークオーバーフィットディテクター(C-BOD)を導入します。これは、パラメトリック変換を介してベンチマークプロンプトを系統的に歪ませ、LLMsの過学習を検出するメタ評価フレームワークです。入力を言い換えつつ意味内容とラベルを保持することで、C-BODはモデルの性能が記憶されたパターンによって駆動されているかどうかを明らかにします。26の主要なLLMsを使用してMMLUベンチマークで評価した結果、当社の手法は、適度な摂動下で平均性能の低下率が2.15%であり、26モデル中20モデルが統計的に有意な差を示しています。特筆すべきは、基準精度が高いモデルほど摂動下で性能差が大きくなり、大規模LLMsほど言い換えに敏感であり、両方の場合とも固定プロンプトパターンに過度に依存している可能性があることを示しています。これに対して、Llamaファミリーおよび基準精度が低いモデルは無視できる程度の低下を示し、表面的手掛かりへの依存が低いことを示唆しています。さらに、C-BODのデータセットおよびモデルに依存しない設計は、トレーニングパイプラインに簡単に統合でき、より堅牢な言語理解を促進します。私たちの調査結果は、コミュニティに、リーダーボードの得点を超えて、LLMの評価において抵抗力と汎化性を優先させるよう促しています。
English
Large language models (LLMs) often appear to excel on public benchmarks, but these high scores may mask an overreliance on dataset-specific surface cues rather than true language understanding. We introduce the Chameleon Benchmark Overfit Detector (C-BOD), a meta-evaluation framework that systematically distorts benchmark prompts via a parametric transformation and detects overfitting of LLMs. By rephrasing inputs while preserving their semantic content and labels, C-BOD exposes whether a model's performance is driven by memorized patterns. Evaluated on the MMLU benchmark using 26 leading LLMs, our method reveals an average performance degradation of 2.15% under modest perturbations, with 20 out of 26 models exhibiting statistically significant differences. Notably, models with higher baseline accuracy exhibit larger performance differences under perturbation, and larger LLMs tend to be more sensitive to rephrasings indicating that both cases may overrely on fixed prompt patterns. In contrast, the Llama family and models with lower baseline accuracy show insignificant degradation, suggesting reduced dependency on superficial cues. Moreover, C-BOD's dataset- and model-agnostic design allows easy integration into training pipelines to promote more robust language understanding. Our findings challenge the community to look beyond leaderboard scores and prioritize resilience and generalization in LLM evaluation.

Summary

AI-Generated Summary

PDF113February 12, 2025