ChatPaper.aiChatPaper

Differenze Significative: Audit dei Modelli per l'Individuazione e la Correzione dei Divari di Capacità

Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

December 18, 2025
Autori: Qihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu
cs.AI

Abstract

I metodi di valutazione convenzionali per i modelli linguistici multimodali (MLLM) mancano di interpretabilità e sono spesso insufficienti per rivelare completamente i significativi divari di capacità tra i modelli. Per affrontare questo problema, introduciamo AuditDM, un framework automatizzato che scopre attivamente e corregge le modalità di fallimento degli MLLM analizzandone la divergenza. AuditDM mette a punto un MLLM come "auditor" tramite apprendimento per rinforzo per generare domande complesse e immagini controfattuali che massimizzano il disaccordo tra i modelli target. Una volta addestrato, l'auditor individua esempi diversificati e interpretabili che rivelano le debolezze del modello e fungono da dati privi di annotazioni per la correzione. Applicato a modelli all'avanguardia come Gemma-3 e PaliGemma-2, AuditDM ha scoperto oltre 20 tipi di fallimento distinti. La messa a punto su queste scoperte migliora costantemente tutti i modelli su 16 benchmark e consente a un modello da 3B di superare la sua controparte da 28B. I nostri risultati suggeriscono che, quando la scalabilità dei dati incontra rendimenti decrescenti, l'auditing mirato dei modelli offre un percorso efficace per la diagnosi e il miglioramento del modello.
English
Conventional evaluation methods for multimodal LLMs (MLLMs) lack interpretability and are often insufficient to fully disclose significant capability gaps across models. To address this, we introduce AuditDM, an automated framework that actively discovers and rectifies MLLM failure modes by auditing their divergence. AuditDM fine-tunes an MLLM as an auditor via reinforcement learning to generate challenging questions and counterfactual images that maximize disagreement among target models. Once trained, the auditor uncovers diverse, interpretable exemplars that reveal model weaknesses and serve as annotation-free data for rectification. When applied to SoTA models like Gemma-3 and PaliGemma-2, AuditDM discovers more than 20 distinct failure types. Fine-tuning on these discoveries consistently improves all models across 16 benchmarks, and enables a 3B model to surpass its 28B counterpart. Our results suggest that as data scaling hits diminishing returns, targeted model auditing offers an effective path to model diagnosis and improvement.
PDF51December 21, 2025