ChatPaper.aiChatPaper

信頼性のあるLLM評価の確立:ショートカットニューロン分析によるアプローチ

Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis

June 4, 2025
著者: Kejian Zhu, Shangqing Tu, Zhuoran Jin, Lei Hou, Juanzi Li, Jun Zhao
cs.AI

要旨

大規模言語モデル(LLM)の開発は、信頼性のある評価に依存している。しかし、現在の評価の多くは公開ベンチマークに基づいており、データ汚染の問題が公平性を著しく損なう可能性がある。これまでの研究では、汚染に対処するために動的なベンチマークの構築に焦点を当ててきた。しかし、新しいベンチマークを継続的に構築することはコストがかかり、循環的である。本研究では、汚染されたモデル自体のメカニズムを分析することで、汚染問題に取り組むことを目指す。実験を通じて、汚染されたモデルの過大評価は、パラメータがトレーニング中にショートカット解を獲得することによる可能性が高いことを発見した。さらに、比較的および因果的分析を通じてショートカットニューロンを特定する新しい方法を提案する。これに基づき、ショートカットニューロンを抑制する評価方法であるショートカットニューロンパッチングを導入する。実験により、本手法が汚染を軽減する効果があることが検証された。さらに、本手法の評価結果は、最近リリースされた信頼性のあるベンチマークであるMixEvalと強い線形相関を示し、スピアマン係数(rho)が0.95を超えた。この高い相関は、本手法がモデルの真の能力を密接に反映し、信頼性が高いことを示している。さらに、さまざまなベンチマークおよびハイパーパラメータ設定において本手法の汎用性を実証する実験を行った。コード: https://github.com/GaryStack/Trustworthy-Evaluation
English
The development of large language models (LLMs) depends on trustworthy evaluation. However, most current evaluations rely on public benchmarks, which are prone to data contamination issues that significantly compromise fairness. Previous researches have focused on constructing dynamic benchmarks to address contamination. However, continuously building new benchmarks is costly and cyclical. In this work, we aim to tackle contamination by analyzing the mechanisms of contaminated models themselves. Through our experiments, we discover that the overestimation of contaminated models is likely due to parameters acquiring shortcut solutions in training. We further propose a novel method for identifying shortcut neurons through comparative and causal analysis. Building on this, we introduce an evaluation method called shortcut neuron patching to suppress shortcut neurons. Experiments validate the effectiveness of our approach in mitigating contamination. Additionally, our evaluation results exhibit a strong linear correlation with MixEval, a recently released trustworthy benchmark, achieving a Spearman coefficient (rho) exceeding 0.95. This high correlation indicates that our method closely reveals true capabilities of the models and is trustworthy. We conduct further experiments to demonstrate the generalizability of our method across various benchmarks and hyperparameter settings. Code: https://github.com/GaryStack/Trustworthy-Evaluation
PDF272June 5, 2025