ChatPaper.aiChatPaper

I Progettatori di Benchmark Dovrebbero "Addestrare sul Set di Test" per Evidenziare Scorciatoie Non Visive Sfruttabili

Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts

November 6, 2025
Autori: Ellis Brown, Jihan Yang, Shusheng Yang, Rob Fergus, Saining Xie
cs.AI

Abstract

I benchmark robusti sono cruciali per valutare i Modelli Linguistici Multimodali di Grande Dimensione (MLLM). Tuttavia, riscontriamo che i modelli possono eccellere in molti benchmark multimodali senza una forte comprensione visiva, sfruttando invece bias, preconcetti linguistici e pattern superficiali. Ciò è particolarmente problematico per i benchmark incentrati sulla visione, concepiti per richiedere input visivi. Adottiamo un principio diagnostico per la progettazione dei benchmark: se un benchmark può essere aggirato, lo sarà. I progettisti dovrebbero quindi tentare di "aggirare" i propri benchmark per primi, utilizzando procedure diagnostiche e di debiasing per identificare e mitigare sistematicamente i bias non visivi. Una diagnosi efficace richiede di "addestrare direttamente sul set di test" – sondando il set di test rilasciato per i suoi pattern intrinseci e sfruttabili. Operazionalizziamo questo standard con due componenti. Primo, diagnostichiamo la suscettibilità del benchmark utilizzando una metodologia di "Stress-Test sul Set di Test" (TsT). Il nostro principale strumento diagnostico prevede il fine-tuning di un potente Modello Linguistico di Grande Dimensione tramite convalida incrociata k-fold esclusivamente sugli input testuali non visivi del set di test, per rivelare le performance ottenute con scorciatoie e assegnare a ciascun campione un punteggio di bias s(x). Affianchiamo a ciò uno strumento diagnostico leggero basato su Random Forest che opera su feature create manualmente per un'audit rapido e interpretabile. Secondo, applichiamo il debiasing ai benchmark filtrando i campioni ad alto bias utilizzando una procedura di "Potatura Iterativa del Bias" (IBP). Applicando questo framework a quattro benchmark – VSI-Bench, CV-Bench, MMMU e VideoMME – scopriamo bias non visivi pervasivi. Come caso di studio, applichiamo il nostro framework completo per creare VSI-Bench-Debiased, dimostrando una ridotta risolvibilità non visiva e un divario di performance più ampio per i modelli privi di visione rispetto all'originale.
English
Robust benchmarks are crucial for evaluating Multimodal Large Language Models (MLLMs). Yet we find that models can ace many multimodal benchmarks without strong visual understanding, instead exploiting biases, linguistic priors, and superficial patterns. This is especially problematic for vision-centric benchmarks that are meant to require visual inputs. We adopt a diagnostic principle for benchmark design: if a benchmark can be gamed, it will be. Designers should therefore try to ``game'' their own benchmarks first, using diagnostic and debiasing procedures to systematically identify and mitigate non-visual biases. Effective diagnosis requires directly ``training on the test set'' -- probing the released test set for its intrinsic, exploitable patterns. We operationalize this standard with two components. First, we diagnose benchmark susceptibility using a ``Test-set Stress-Test'' (TsT) methodology. Our primary diagnostic tool involves fine-tuning a powerful Large Language Model via k-fold cross-validation on exclusively the non-visual, textual inputs of the test set to reveal shortcut performance and assign each sample a bias score s(x). We complement this with a lightweight Random Forest-based diagnostic operating on hand-crafted features for fast, interpretable auditing. Second, we debias benchmarks by filtering high-bias samples using an ``Iterative Bias Pruning'' (IBP) procedure. Applying this framework to four benchmarks -- VSI-Bench, CV-Bench, MMMU, and VideoMME -- we uncover pervasive non-visual biases. As a case study, we apply our full framework to create VSI-Bench-Debiased, demonstrating reduced non-visual solvability and a wider vision-blind performance gap than the original.
PDF72December 2, 2025