Los Diseñadores de Puntos de Referencia Deben "Entrenar en el Conjunto de Pruebas" para Exponer Atajos No Visuales Explotables
Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts
November 6, 2025
Autores: Ellis Brown, Jihan Yang, Shusheng Yang, Rob Fergus, Saining Xie
cs.AI
Resumen
Los puntos de referencia sólidos son cruciales para evaluar los Modelos de Lenguaje Grandes Multimodales (MLLM, por sus siglas en inglés). Sin embargo, encontramos que los modelos pueden superar muchas pruebas multimodales sin una comprensión visual sólida, explotando en su lugar sesgos, conocimientos previos lingüísticos y patrones superficiales. Esto es especialmente problemático para los puntos de referencia centrados en la visión que están diseñados para requerir entradas visuales. Adoptamos un principio de diagnóstico para el diseño de puntos de referencia: si un punto de referencia puede ser "hackeado", lo será. Por lo tanto, los diseñadores deberían intentar "hackear" sus propias pruebas primero, utilizando procedimientos de diagnóstico y eliminación de sesgos para identificar y mitigar sistemáticamente los sesgos no visuales. Un diagnóstico efectivo requiere "entrenar directamente en el conjunto de prueba" — sondeando el conjunto de prueba publicado para descubrir sus patrones intrínsecos y explotables.
Operacionalizamos este estándar con dos componentes. Primero, diagnosticamos la susceptibilidad del punto de referencia utilizando una metodología de "Prueba de Estrés del Conjunto de Prueba" (TsT, por sus siglas en inglés). Nuestra herramienta de diagnóstico principal implica ajustar (fine-tune) un Modelo de Lenguaje Grande potente mediante validación cruzada k-fold utilizando exclusivamente las entradas textuales (no visuales) del conjunto de prueba para revelar el rendimiento por atajos y asignar a cada muestra una puntuación de sesgo s(x). Complementamos esto con un diagnóstico ligero basado en Bosques Aleatorios (Random Forest) que opera sobre características creadas manualmente para una auditoría rápida e interpretable. En segundo lugar, eliminamos los sesgos de los puntos de referencia filtrando las muestras de alto sesgo mediante un procedimiento de "Poda Iterativa de Sesgos" (IBP, por sus siglas en inglés). Aplicando este marco a cuatro puntos de referencia —VSI-Bench, CV-Bench, MMMU y VideoMME— descubrimos sesgos no visuales generalizados. Como estudio de caso, aplicamos nuestro marco completo para crear VSI-Bench-Debiased, demostrando una reducida capacidad de resolución no visual y una brecha de rendimiento mayor para modelos sin visión (vision-blind) en comparación con el original.
English
Robust benchmarks are crucial for evaluating Multimodal Large Language Models
(MLLMs). Yet we find that models can ace many multimodal benchmarks without
strong visual understanding, instead exploiting biases, linguistic priors, and
superficial patterns. This is especially problematic for vision-centric
benchmarks that are meant to require visual inputs. We adopt a diagnostic
principle for benchmark design: if a benchmark can be gamed, it will be.
Designers should therefore try to ``game'' their own benchmarks first, using
diagnostic and debiasing procedures to systematically identify and mitigate
non-visual biases. Effective diagnosis requires directly ``training on the test
set'' -- probing the released test set for its intrinsic, exploitable patterns.
We operationalize this standard with two components. First, we diagnose
benchmark susceptibility using a ``Test-set Stress-Test'' (TsT) methodology.
Our primary diagnostic tool involves fine-tuning a powerful Large Language
Model via k-fold cross-validation on exclusively the non-visual, textual
inputs of the test set to reveal shortcut performance and assign each sample a
bias score s(x). We complement this with a lightweight Random Forest-based
diagnostic operating on hand-crafted features for fast, interpretable auditing.
Second, we debias benchmarks by filtering high-bias samples using an
``Iterative Bias Pruning'' (IBP) procedure. Applying this framework to four
benchmarks -- VSI-Bench, CV-Bench, MMMU, and VideoMME -- we uncover pervasive
non-visual biases. As a case study, we apply our full framework to create
VSI-Bench-Debiased, demonstrating reduced non-visual solvability and a wider
vision-blind performance gap than the original.