Benchmark-Designer sollten "auf dem Testset trainieren", um ausnutzbare nicht-visuelle Abkürzungen aufzudecken

papers.abstract

Robuste Benchmarks sind entscheidend für die Bewertung multimodaler großer Sprachmodelle (MLLMs). Wir stellen jedoch fest, dass Modelle viele multimodale Benchmarks ohne ein starkes visuelles Verständnis meistern können, indem sie stattdessen Verzerrungen, linguistische A-priori-Annahmen und oberflächliche Muster ausnutzen. Dies ist besonders problematisch für visuell zentrierte Benchmarks, die eigentlich visuelle Eingaben erfordern sollen. Wir übernehmen ein diagnostisches Prinzip für das Benchmark-Design: Wenn ein Benchmark manipuliert werden kann, wird er es auch. Designer sollten daher versuchen, ihre eigenen Benchmarks zunächst selbst zu „manipulieren“, indem sie diagnostische Verfahren und Verfahren zur Entfernung von Verzerrungen anwenden, um nicht-visuelle Verzerrungen systematisch zu identifizieren und zu entschärfen. Eine effektive Diagnose erfordert das direkte „Trainieren auf dem Testset“ – das Untersuchen des veröffentlichten Testsets auf seine intrinsischen, ausnutzbaren Muster. Wir setzen diesen Standard mit zwei Komponenten in die Praxis um. Erstens diagnostizieren wir die Anfälligkeit eines Benchmarks mit einer „Testset-Stresstest“-Methodik (TsT). Unser primäres Diagnosewerkzeug beinhaltet das Feinabstimmen eines leistungsstarken großen Sprachmodells mittels k-facher Kreuzvalidierung ausschließlich auf den nicht-visuellen, textuellen Eingaben des Testsets, um Kurzschlussleistungen aufzudecken und jeder Probe einen Verzerrungswert s(x) zuzuweisen. Dies ergänzen wir mit einer leichtgewichtigen, auf Random Forest basierenden Diagnose, die auf handgefertigten Merkmalen operiert, um eine schnelle, interpretierbare Überprüfung zu ermöglichen. Zweitens entfernen wir Verzerrungen aus Benchmarks, indem wir stark verzerrte Proben mithilfe eines „Iterativen Bias-Bereinigungs“-Verfahrens (IBP) herausfiltern. Durch die Anwendung dieses Frameworks auf vier Benchmarks – VSI-Bench, CV-Bench, MMMU und VideoMME – decken wir weit verbreitete nicht-visuelle Verzerrungen auf. In einer Fallstudie wenden wir unser vollständiges Framework an, um VSI-Bench-Debiased zu erstellen, was eine reduzierte nicht-visuelle Lösbarkeit und eine größere Leistungslücke im Vergleich zu vision-blind-Modellen als im Original zeigt.

English

Robust benchmarks are crucial for evaluating Multimodal Large Language Models (MLLMs). Yet we find that models can ace many multimodal benchmarks without strong visual understanding, instead exploiting biases, linguistic priors, and superficial patterns. This is especially problematic for vision-centric benchmarks that are meant to require visual inputs. We adopt a diagnostic principle for benchmark design: if a benchmark can be gamed, it will be. Designers should therefore try to ``game'' their own benchmarks first, using diagnostic and debiasing procedures to systematically identify and mitigate non-visual biases. Effective diagnosis requires directly ``training on the test set'' -- probing the released test set for its intrinsic, exploitable patterns. We operationalize this standard with two components. First, we diagnose benchmark susceptibility using a ``Test-set Stress-Test'' (TsT) methodology. Our primary diagnostic tool involves fine-tuning a powerful Large Language Model via k-fold cross-validation on exclusively the non-visual, textual inputs of the test set to reveal shortcut performance and assign each sample a bias score s(x). We complement this with a lightweight Random Forest-based diagnostic operating on hand-crafted features for fast, interpretable auditing. Second, we debias benchmarks by filtering high-bias samples using an ``Iterative Bias Pruning'' (IBP) procedure. Applying this framework to four benchmarks -- VSI-Bench, CV-Bench, MMMU, and VideoMME -- we uncover pervasive non-visual biases. As a case study, we apply our full framework to create VSI-Bench-Debiased, demonstrating reduced non-visual solvability and a wider vision-blind performance gap than the original.

Benchmark-Designer sollten "auf dem Testset trainieren", um ausnutzbare nicht-visuelle Abkürzungen aufzudecken

Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts

papers.abstract

Support