Unterschiede, die zählen: Überprüfung von Modellen zur Ermittlung und Behebung von Fähigkeitslücken
Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification
December 18, 2025
papers.authors: Qihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu
cs.AI
papers.abstract
Konventionelle Evaluierungsmethoden für multimodale LLMs (MLLMs) mangelt es an Interpretierbarkeit und sie sind oft unzureichend, um signifikante Fähigkeitslücken zwischen Modellen vollständig aufzudecken. Um dieses Problem zu adressieren, stellen wir AuditDM vor, einen automatisierten Rahmen, der aktiv Versagensmodi von MLLMs aufdeckt und korrigiert, indem er ihre Divergenz überprüft. AuditDM fine-tuned ein MLLM als Prüfer mittels Reinforcement Learning, um herausfordernde Fragen und kontrafaktische Bilder zu generieren, die die Diskrepanz zwischen Zielmodellen maximieren. Nach dem Training deckt der Prüfer diverse, interpretierbare Beispiele auf, die Modellschwächen offenlegen und als annotationsfreie Daten zur Korrektur dienen. Bei der Anwendung auf State-of-the-Art-Modelle wie Gemma-3 und PaliGemma-2 entdeckt AuditDM mehr als 20 verschiedene Fehlertypen. Fine-Tuning auf Basis dieser Entdeckungen verbessert konsistent alle Modelle über 16 Benchmarks hinweg und ermöglicht es einem 3B-Modell, sein 28B-Pendant zu übertreffen. Unsere Ergebnisse deuten darauf hin, dass, wenn die Datenskalierung abnehmende Erträge liefert, gezielte Modellprüfung einen effektiven Weg zur Modelldiagnose und -verbesserung bietet.
English
Conventional evaluation methods for multimodal LLMs (MLLMs) lack interpretability and are often insufficient to fully disclose significant capability gaps across models. To address this, we introduce AuditDM, an automated framework that actively discovers and rectifies MLLM failure modes by auditing their divergence. AuditDM fine-tunes an MLLM as an auditor via reinforcement learning to generate challenging questions and counterfactual images that maximize disagreement among target models. Once trained, the auditor uncovers diverse, interpretable exemplars that reveal model weaknesses and serve as annotation-free data for rectification. When applied to SoTA models like Gemma-3 and PaliGemma-2, AuditDM discovers more than 20 distinct failure types. Fine-tuning on these discoveries consistently improves all models across 16 benchmarks, and enables a 3B model to surpass its 28B counterpart. Our results suggest that as data scaling hits diminishing returns, targeted model auditing offers an effective path to model diagnosis and improvement.