Разработчики бенчмарков должны "тренироваться на тестовом наборе", чтобы выявить эксплуатируемые невизуальные сокращения
Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts
November 6, 2025
Авторы: Ellis Brown, Jihan Yang, Shusheng Yang, Rob Fergus, Saining Xie
cs.AI
Аннотация
Надежные бенчмарки крайне важны для оценки мультимодальных больших языковых моделей (МБЯМ). Однако мы обнаруживаем, что модели могут превосходно справляться со многими мультимодальными тестами без наличия глубокого визуального понимания, вместо этого используя смещения, лингвистические априорные предположения и поверхностные шаблоны. Это особенно проблематично для визуально-ориентированных бенчмарков, которые по замыслу должны требовать визуальных входных данных. Мы применяем диагностический принцип для проектирования бенчмарков: если бенчмарком можно манипулировать, то это произойдет. Поэтому разработчики должны сначала попытаться «обойти» свои собственные бенчмарки, используя диагностические процедуры и процедуры устранения смещений для систематического выявления и снижения невизуальных предубеждений. Эффективная диагностика требует прямого «обучения на тестовом наборе» — исследования опубликованного тестового набора на предмет его внутренних, эксплуатируемых закономерностей.
Мы реализуем этот стандарт с помощью двух компонентов. Во-первых, мы диагностируем подверженность бенчмарка смещениям с использованием методологии «Стресс-тест тестового набора» (TsT). Наш основной диагностический инструмент включает тонкую настройку мощной большой языковой модели с помощью k-кратной перекрестной проверки исключительно на невизуальных, текстовых входных данных тестового набора, чтобы выявить производительность за счет «коротких путей» и присвоить каждому образцу оценку смещения s(x). Мы дополняем это легковесной диагностикой на основе случайного леса, работающей с рукописными признаками, для быстрого и интерпретируемого аудита. Во-вторых, мы устраняем смещения в бенчмарках, фильтруя образцы с высоким уровнем смещения с помощью процедуры «Итеративной обрезки смещений» (IBP). Применяя эту структуру к четырем бенчмаркам — VSI-Bench, CV-Bench, MMMU и VideoMME — мы выявляем повсеместные невизуальные смещения. В качестве примера мы применяем нашу полную структуру для создания VSI-Bench-Debiased, демонстрируя сниженную решаемость без визуальной информации и более широкий разрыв в производительности с моделью, лишенной зрения, по сравнению с оригиналом.
English
Robust benchmarks are crucial for evaluating Multimodal Large Language Models
(MLLMs). Yet we find that models can ace many multimodal benchmarks without
strong visual understanding, instead exploiting biases, linguistic priors, and
superficial patterns. This is especially problematic for vision-centric
benchmarks that are meant to require visual inputs. We adopt a diagnostic
principle for benchmark design: if a benchmark can be gamed, it will be.
Designers should therefore try to ``game'' their own benchmarks first, using
diagnostic and debiasing procedures to systematically identify and mitigate
non-visual biases. Effective diagnosis requires directly ``training on the test
set'' -- probing the released test set for its intrinsic, exploitable patterns.
We operationalize this standard with two components. First, we diagnose
benchmark susceptibility using a ``Test-set Stress-Test'' (TsT) methodology.
Our primary diagnostic tool involves fine-tuning a powerful Large Language
Model via k-fold cross-validation on exclusively the non-visual, textual
inputs of the test set to reveal shortcut performance and assign each sample a
bias score s(x). We complement this with a lightweight Random Forest-based
diagnostic operating on hand-crafted features for fast, interpretable auditing.
Second, we debias benchmarks by filtering high-bias samples using an
``Iterative Bias Pruning'' (IBP) procedure. Applying this framework to four
benchmarks -- VSI-Bench, CV-Bench, MMMU, and VideoMME -- we uncover pervasive
non-visual biases. As a case study, we apply our full framework to create
VSI-Bench-Debiased, demonstrating reduced non-visual solvability and a wider
vision-blind performance gap than the original.