Diferencias que Importan: Auditoría de Modelos para la Detección y Rectificación de Brechas de Capacidad
Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification
December 18, 2025
Autores: Qihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu
cs.AI
Resumen
Los métodos de evaluación convencionales para los LLM multimodales (MLLM) carecen de interpretabilidad y a menudo son insuficientes para revelar completamente las brechas significativas de capacidad entre modelos. Para abordar esto, presentamos AuditDM, un marco automatizado que descubre y rectifica activamente los modos de fallo de los MLLM mediante la auditoría de su divergencia. AuditDM ajusta mediante fine-tuning un MLLM como auditor mediante aprendizaje por refuerzo para generar preguntas desafiantes e imágenes contrafactuales que maximicen el desacuerdo entre los modelos objetivo. Una vez entrenado, el auditor descubre ejemplares diversos e interpretables que revelan las debilidades del modelo y sirven como datos libres de anotación para la rectificación. Cuando se aplica a modelos de última generación como Gemma-3 y PaliGemma-2, AuditDM descubre más de 20 tipos de fallos distintos. El fine-tuning basado en estos descubrimientos mejora consistentemente todos los modelos en 16 benchmarks, y permite que un modelo de 3B supere a su contraparte de 28B. Nuestros resultados sugieren que, a medida que el escalado de datos alcanza rendimientos decrecientes, la auditoría dirigida de modelos ofrece un camino efectivo para el diagnóstico y la mejora de los mismos.
English
Conventional evaluation methods for multimodal LLMs (MLLMs) lack interpretability and are often insufficient to fully disclose significant capability gaps across models. To address this, we introduce AuditDM, an automated framework that actively discovers and rectifies MLLM failure modes by auditing their divergence. AuditDM fine-tunes an MLLM as an auditor via reinforcement learning to generate challenging questions and counterfactual images that maximize disagreement among target models. Once trained, the auditor uncovers diverse, interpretable exemplars that reveal model weaknesses and serve as annotation-free data for rectification. When applied to SoTA models like Gemma-3 and PaliGemma-2, AuditDM discovers more than 20 distinct failure types. Fine-tuning on these discoveries consistently improves all models across 16 benchmarks, and enables a 3B model to surpass its 28B counterpart. Our results suggest that as data scaling hits diminishing returns, targeted model auditing offers an effective path to model diagnosis and improvement.