ChatPaper.aiChatPaper

Verschillen die ertoe doen: Het auditen van modellen voor het ontdekken en verhelpen van capaciteitskloven

Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

December 18, 2025
Auteurs: Qihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu
cs.AI

Samenvatting

Conventionele evaluatiemethoden voor multimodale LLM's (MLLM's) missen interpreteerbaarheid en zijn vaak onvoldoende om significante capaciteitsverschillen tussen modellen volledig bloot te leggen. Om dit aan te pakken, introduceren wij AuditDM, een geautomatiseerd raamwerk dat actief faalmodi van MLLM's ontdekt en verbetert door hun divergentie te auditen. AuditDM fine-tunt een MLLM als auditor via reinforcement learning om uitdagende vragen en counterfactuele afbeeldingen te genereren die de onenigheid tussen doelmodellen maximaliseren. Eenmaal getraind, onthult de auditor diverse, interpreteerbare voorbeelden die modelzwakheden blootleggen en dienen als annotatievrije data voor verbetering. Toegepast op state-of-the-art modellen zoals Gemma-3 en PaliGemma-2, ontdekt AuditDM meer dan 20 verschillende faaltypes. Fine-tuning op deze ontdekkingen verbetert alle modellen consistent over 16 benchmarks, en stelt een 3B-model in staat zijn 28B-tegenhanger te overtreffen. Onze resultaten suggereren dat, naarmate dataschaling tegen afnemende meeropbrengsten aanloopt, gerichte modelauditering een effectief pad biedt voor modeldiagnose en -verbetering.
English
Conventional evaluation methods for multimodal LLMs (MLLMs) lack interpretability and are often insufficient to fully disclose significant capability gaps across models. To address this, we introduce AuditDM, an automated framework that actively discovers and rectifies MLLM failure modes by auditing their divergence. AuditDM fine-tunes an MLLM as an auditor via reinforcement learning to generate challenging questions and counterfactual images that maximize disagreement among target models. Once trained, the auditor uncovers diverse, interpretable exemplars that reveal model weaknesses and serve as annotation-free data for rectification. When applied to SoTA models like Gemma-3 and PaliGemma-2, AuditDM discovers more than 20 distinct failure types. Fine-tuning on these discoveries consistently improves all models across 16 benchmarks, and enables a 3B model to surpass its 28B counterpart. Our results suggest that as data scaling hits diminishing returns, targeted model auditing offers an effective path to model diagnosis and improvement.
PDF71December 31, 2025