Les concepteurs de benchmarks devraient "s'entraîner sur l'ensemble de test" pour révéler les raccourcis exploitables non visuels

papers.abstract

Des benchmarks robustes sont cruciaux pour évaluer les modèles de langage de grande taille multimodaux (MLLM). Pourtant, nous constatons que les modèles peuvent exceller dans de nombreux benchmarks multimodaux sans une compréhension visuelle solide, en exploitant plutôt des biais, des connaissances linguistiques a priori et des motifs superficiels. Ceci est particulièrement problématique pour les benchmarks centrés sur la vision qui sont censés nécessiter des entrées visuelles. Nous adoptons un principe de diagnostic pour la conception des benchmarks : si un benchmark peut être contourné, il le sera. Les concepteurs devraient donc tenter de « contourner » leurs propres benchmarks en premier lieu, en utilisant des procédures de diagnostic et de débiaisage pour identifier et atténuer systématiquement les biais non visuels. Un diagnostic efficace nécessite un « entraînement direct sur l'ensemble de test » – en sondant l'ensemble de test publié pour révéler ses motifs intrinsèques et exploitables. Nous opérationnalisons cette norme avec deux composantes. Premièrement, nous diagnostiquons la sensibilité d'un benchmark en utilisant une méthodologie de « Test de Résistance sur l'Ensemble de Test » (TsT). Notre principal outil de diagnostic consiste à fine-tuner un modèle de langage puissant via une validation croisée k-fold exclusivement sur les entrées textuelles non visuelles de l'ensemble de test pour révéler les performances par raccourci et attribuer à chaque échantillon un score de biais s(x). Nous complétons cela par un diagnostic léger basé sur une Forêt Aléatoire opérant sur des caractéristiques conçues manuellement pour un audit rapide et interprétable. Deuxièmement, nous débiasons les benchmarks en filtrant les échantillons à fort biais à l'aide d'une procédure « d'Élagage Itératif des Biais » (IBP). En appliquant ce cadre à quatre benchmarks – VSI-Bench, CV-Bench, MMMU et VideoMME – nous mettons à jour des biais non visuels omniprésents. Comme étude de cas, nous appliquons notre cadre complet pour créer VSI-Bench-Debiased, démontrant une solvabilité non visuelle réduite et un écart de performance plus large pour les modèles sans vision que l'original.

English

Robust benchmarks are crucial for evaluating Multimodal Large Language Models (MLLMs). Yet we find that models can ace many multimodal benchmarks without strong visual understanding, instead exploiting biases, linguistic priors, and superficial patterns. This is especially problematic for vision-centric benchmarks that are meant to require visual inputs. We adopt a diagnostic principle for benchmark design: if a benchmark can be gamed, it will be. Designers should therefore try to ``game'' their own benchmarks first, using diagnostic and debiasing procedures to systematically identify and mitigate non-visual biases. Effective diagnosis requires directly ``training on the test set'' -- probing the released test set for its intrinsic, exploitable patterns. We operationalize this standard with two components. First, we diagnose benchmark susceptibility using a ``Test-set Stress-Test'' (TsT) methodology. Our primary diagnostic tool involves fine-tuning a powerful Large Language Model via k-fold cross-validation on exclusively the non-visual, textual inputs of the test set to reveal shortcut performance and assign each sample a bias score s(x). We complement this with a lightweight Random Forest-based diagnostic operating on hand-crafted features for fast, interpretable auditing. Second, we debias benchmarks by filtering high-bias samples using an ``Iterative Bias Pruning'' (IBP) procedure. Applying this framework to four benchmarks -- VSI-Bench, CV-Bench, MMMU, and VideoMME -- we uncover pervasive non-visual biases. As a case study, we apply our full framework to create VSI-Bench-Debiased, demonstrating reduced non-visual solvability and a wider vision-blind performance gap than the original.

Les concepteurs de benchmarks devraient "s'entraîner sur l'ensemble de test" pour révéler les raccourcis exploitables non visuels

Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts

papers.abstract

Support