Os Criadores de Benchmarks Devem "Treinar no Conjunto de Teste" para Expor Atalhos Não Visuais Exploráveis

Resumo

Os benchmarks robustos são cruciais para avaliar Modelos de Linguagem Grandes Multimodais (MLLMs). No entanto, descobrimos que os modelos podem obter excelentes resultados em muitos benchmarks multimodais sem uma compreensão visual forte, explorando, em vez disso, vieses, pré-noções linguísticas e padrões superficiais. Isso é especialmente problemático para benchmarks centrados na visão que são projetados para exigir entradas visuais. Adotamos um princípio de diagnóstico para o design de benchmarks: se um benchmark pode ser "enganado", ele o será. Portanto, os designers devem tentar "enganar" seus próprios benchmarks primeiro, usando procedimentos de diagnóstico e debiasing para identificar e mitigar sistematicamente vieses não visuais. Um diagnóstico eficaz requer "treinar diretamente no conjunto de teste" – investigar o conjunto de teste liberado em busca de seus padrões intrínsecos e exploráveis. Operacionalizamos esse padrão com dois componentes. Primeiro, diagnosticamos a suscetibilidade do benchmark usando uma metodologia de "Teste de Estresse no Conjunto de Teste" (TsT). Nossa principal ferramenta de diagnóstico envolve o ajuste fino de um Modelo de Linguagem Grande poderoso via validação cruzada k-fold exclusivamente nas entradas textuais (não visuais) do conjunto de teste para revelar desempenho por atalhos e atribuir a cada amostra uma pontuação de viés s(x). Complementamos isso com um diagnóstico leve baseado em Random Forest que opera em características criadas manualmente para uma auditoria rápida e interpretável. Segundo, aplicamos debiasing nos benchmarks filtrando amostras de alto viés usando um procedimento de "Poda Iterativa de Viés" (IBP). Aplicando essa estrutura a quatro benchmarks – VSI-Bench, CV-Bench, MMMU e VideoMME – descobrimos vieses não visuais generalizados. Como estudo de caso, aplicamos nossa estrutura completa para criar o VSI-Bench-Debiased, demonstrando uma redução na solvabilidade não visual e uma lacuna de desempenho maior para modelos sem acesso visual em comparação com o original.

English

Robust benchmarks are crucial for evaluating Multimodal Large Language Models (MLLMs). Yet we find that models can ace many multimodal benchmarks without strong visual understanding, instead exploiting biases, linguistic priors, and superficial patterns. This is especially problematic for vision-centric benchmarks that are meant to require visual inputs. We adopt a diagnostic principle for benchmark design: if a benchmark can be gamed, it will be. Designers should therefore try to ``game'' their own benchmarks first, using diagnostic and debiasing procedures to systematically identify and mitigate non-visual biases. Effective diagnosis requires directly ``training on the test set'' -- probing the released test set for its intrinsic, exploitable patterns. We operationalize this standard with two components. First, we diagnose benchmark susceptibility using a ``Test-set Stress-Test'' (TsT) methodology. Our primary diagnostic tool involves fine-tuning a powerful Large Language Model via k-fold cross-validation on exclusively the non-visual, textual inputs of the test set to reveal shortcut performance and assign each sample a bias score s(x). We complement this with a lightweight Random Forest-based diagnostic operating on hand-crafted features for fast, interpretable auditing. Second, we debias benchmarks by filtering high-bias samples using an ``Iterative Bias Pruning'' (IBP) procedure. Applying this framework to four benchmarks -- VSI-Bench, CV-Bench, MMMU, and VideoMME -- we uncover pervasive non-visual biases. As a case study, we apply our full framework to create VSI-Bench-Debiased, demonstrating reduced non-visual solvability and a wider vision-blind performance gap than the original.

Os Criadores de Benchmarks Devem "Treinar no Conjunto de Teste" para Expor Atalhos Não Visuais Exploráveis

Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts

Resumo

Support