Os Criadores de Benchmarks Devem "Treinar no Conjunto de Teste" para Expor Atalhos Não Visuais Exploráveis
Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts
November 6, 2025
Autores: Ellis Brown, Jihan Yang, Shusheng Yang, Rob Fergus, Saining Xie
cs.AI
Resumo
Os benchmarks robustos são cruciais para avaliar Modelos de Linguagem Grandes Multimodais (MLLMs). No entanto, descobrimos que os modelos podem obter excelentes resultados em muitos benchmarks multimodais sem uma compreensão visual forte, explorando, em vez disso, vieses, pré-noções linguísticas e padrões superficiais. Isso é especialmente problemático para benchmarks centrados na visão que são projetados para exigir entradas visuais. Adotamos um princípio de diagnóstico para o design de benchmarks: se um benchmark pode ser "enganado", ele o será. Portanto, os designers devem tentar "enganar" seus próprios benchmarks primeiro, usando procedimentos de diagnóstico e debiasing para identificar e mitigar sistematicamente vieses não visuais. Um diagnóstico eficaz requer "treinar diretamente no conjunto de teste" – investigar o conjunto de teste liberado em busca de seus padrões intrínsecos e exploráveis.
Operacionalizamos esse padrão com dois componentes. Primeiro, diagnosticamos a suscetibilidade do benchmark usando uma metodologia de "Teste de Estresse no Conjunto de Teste" (TsT). Nossa principal ferramenta de diagnóstico envolve o ajuste fino de um Modelo de Linguagem Grande poderoso via validação cruzada k-fold exclusivamente nas entradas textuais (não visuais) do conjunto de teste para revelar desempenho por atalhos e atribuir a cada amostra uma pontuação de viés s(x). Complementamos isso com um diagnóstico leve baseado em Random Forest que opera em características criadas manualmente para uma auditoria rápida e interpretável. Segundo, aplicamos debiasing nos benchmarks filtrando amostras de alto viés usando um procedimento de "Poda Iterativa de Viés" (IBP). Aplicando essa estrutura a quatro benchmarks – VSI-Bench, CV-Bench, MMMU e VideoMME – descobrimos vieses não visuais generalizados. Como estudo de caso, aplicamos nossa estrutura completa para criar o VSI-Bench-Debiased, demonstrando uma redução na solvabilidade não visual e uma lacuna de desempenho maior para modelos sem acesso visual em comparação com o original.
English
Robust benchmarks are crucial for evaluating Multimodal Large Language Models
(MLLMs). Yet we find that models can ace many multimodal benchmarks without
strong visual understanding, instead exploiting biases, linguistic priors, and
superficial patterns. This is especially problematic for vision-centric
benchmarks that are meant to require visual inputs. We adopt a diagnostic
principle for benchmark design: if a benchmark can be gamed, it will be.
Designers should therefore try to ``game'' their own benchmarks first, using
diagnostic and debiasing procedures to systematically identify and mitigate
non-visual biases. Effective diagnosis requires directly ``training on the test
set'' -- probing the released test set for its intrinsic, exploitable patterns.
We operationalize this standard with two components. First, we diagnose
benchmark susceptibility using a ``Test-set Stress-Test'' (TsT) methodology.
Our primary diagnostic tool involves fine-tuning a powerful Large Language
Model via k-fold cross-validation on exclusively the non-visual, textual
inputs of the test set to reveal shortcut performance and assign each sample a
bias score s(x). We complement this with a lightweight Random Forest-based
diagnostic operating on hand-crafted features for fast, interpretable auditing.
Second, we debias benchmarks by filtering high-bias samples using an
``Iterative Bias Pruning'' (IBP) procedure. Applying this framework to four
benchmarks -- VSI-Bench, CV-Bench, MMMU, and VideoMME -- we uncover pervasive
non-visual biases. As a case study, we apply our full framework to create
VSI-Bench-Debiased, demonstrating reduced non-visual solvability and a wider
vision-blind performance gap than the original.