ChatPaper.aiChatPaper

ベンチマーク設計者は「テストセットで学習」させ、悪用可能な非視覚的ショートカットを明らかにすべき

Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts

November 6, 2025
著者: Ellis Brown, Jihan Yang, Shusheng Yang, Rob Fergus, Saining Xie
cs.AI

要旨

頑健なベンチマークは、マルチモーダル大規模言語モデル(MLLM)の評価において極めて重要である。しかし我々は、強力な視覚的理解なしに、モデルが多くのマルチモーダルベンチマークで高得点を獲得できることを見出した。それらは、バイアス、言語的事前分布、表面的なパターンを利用しているのである。これは、視覚入力を必要と意図された視覚中心のベンチマークにおいて特に問題である。我々はベンチマーク設計における診断的原則を採用する:ベンチマークが不正利用可能であれば、実際に不正利用されるだろう、と。したがって設計者は、まず自らのベンチマークを「不正利用」しようと試みるべきであり、診断的および脱バイアス手法を用いて、非視覚的バイアスを体系的に特定し軽減すべきである。効果的な診断には、「テストセットで学習する」こと、すなわち、公開されたテストセットが内在的に持つ悪用可能なパターンを探ることが必要である。 我々はこの基準を2つの構成要素で具体化する。第一に、「テストセット・ストレステスト」(TsT)手法を用いてベンチマークの脆弱性を診断する。主な診断ツールは、強力な大規模言語モデルを、テストセットの視覚情報を除いたテキスト入力のみに対してk分割交差検証により微調整し、ショートカット性能を明らかにし、各サンプルにバイアススコアs(x)を割り当てるものである。これを補完するため、手作りの特徴量に基づく軽量なランダムフォレスト診断法を用いて、迅速で解釈可能な監査を可能にする。第二に、「反復的バイアス刈り込み」(IBP)手順を用いて高バイアスサンプルをフィルタリングし、ベンチマークの脱バイアスを行う。この枠組みを4つのベンチマーク(VSI-Bench, CV-Bench, MMMU, VideoMME)に適用した結果、広範な非視覚的バイアスが明らかになった。事例研究として、本枠組みを完全に適用してVSI-Bench-Debiasedを作成し、非視覚的解決可能性が低減され、オリジナルよりも大きな視覚情報なしでの性能差が生じることを実証した。
English
Robust benchmarks are crucial for evaluating Multimodal Large Language Models (MLLMs). Yet we find that models can ace many multimodal benchmarks without strong visual understanding, instead exploiting biases, linguistic priors, and superficial patterns. This is especially problematic for vision-centric benchmarks that are meant to require visual inputs. We adopt a diagnostic principle for benchmark design: if a benchmark can be gamed, it will be. Designers should therefore try to ``game'' their own benchmarks first, using diagnostic and debiasing procedures to systematically identify and mitigate non-visual biases. Effective diagnosis requires directly ``training on the test set'' -- probing the released test set for its intrinsic, exploitable patterns. We operationalize this standard with two components. First, we diagnose benchmark susceptibility using a ``Test-set Stress-Test'' (TsT) methodology. Our primary diagnostic tool involves fine-tuning a powerful Large Language Model via k-fold cross-validation on exclusively the non-visual, textual inputs of the test set to reveal shortcut performance and assign each sample a bias score s(x). We complement this with a lightweight Random Forest-based diagnostic operating on hand-crafted features for fast, interpretable auditing. Second, we debias benchmarks by filtering high-bias samples using an ``Iterative Bias Pruning'' (IBP) procedure. Applying this framework to four benchmarks -- VSI-Bench, CV-Bench, MMMU, and VideoMME -- we uncover pervasive non-visual biases. As a case study, we apply our full framework to create VSI-Bench-Debiased, demonstrating reduced non-visual solvability and a wider vision-blind performance gap than the original.
PDF72December 2, 2025