Différences significatives : Audit des modèles pour l'identification et la correction des écarts de capacités
Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification
December 18, 2025
papers.authors: Qihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu
cs.AI
papers.abstract
Les méthodes d'évaluation conventionnelles pour les modèles de langage multimodaux (MLLM) manquent d'interprétabilité et s'avèrent souvent insuffisantes pour révéler complètement les écarts de capacités significatifs entre les modèles. Pour remédier à cela, nous présentons AuditDM, un cadre automatisé qui découvre et corrige activement les modes de défaillance des MLLM en auditant leur divergence. AuditDM affine un MLLM en tant qu'auditeur via l'apprentissage par renforcement pour générer des questions difficiles et des images contrefactuelles qui maximisent le désaccord entre les modèles cibles. Une fois entraîné, l'auditeur découvre des exemples diversifiés et interprétables qui révèlent les faiblesses des modèles et servent de données sans annotation pour la correction. Appliqué à des modèles state-of-the-art comme Gemma-3 et PaliGemma-2, AuditDM découvre plus de 20 types de défaillance distincts. L'affinage sur ces découvertes améliore constamment tous les modèles sur 16 benchmarks, et permet à un modèle de 3B de surpasser son homologue de 28B. Nos résultats suggèrent qu'avec la saturation des gains par l'augmentation des données, l'audit ciblé des modèles offre une voie efficace pour le diagnostic et l'amélioration des modèles.
English
Conventional evaluation methods for multimodal LLMs (MLLMs) lack interpretability and are often insufficient to fully disclose significant capability gaps across models. To address this, we introduce AuditDM, an automated framework that actively discovers and rectifies MLLM failure modes by auditing their divergence. AuditDM fine-tunes an MLLM as an auditor via reinforcement learning to generate challenging questions and counterfactual images that maximize disagreement among target models. Once trained, the auditor uncovers diverse, interpretable exemplars that reveal model weaknesses and serve as annotation-free data for rectification. When applied to SoTA models like Gemma-3 and PaliGemma-2, AuditDM discovers more than 20 distinct failure types. Fine-tuning on these discoveries consistently improves all models across 16 benchmarks, and enables a 3B model to surpass its 28B counterpart. Our results suggest that as data scaling hits diminishing returns, targeted model auditing offers an effective path to model diagnosis and improvement.