Diferenças que Importam: Auditoria de Modelos para Descoberta e Correção de Lacunas de Capacidade

Resumo

Os métodos convencionais de avaliação de MLLMs (Modelos de Linguagem Multimodal) carecem de interpretabilidade e frequentemente são insuficientes para revelar completamente lacunas significativas de capacidade entre os modelos. Para resolver isso, introduzimos o AuditDM, uma estrutura automatizada que descobre e corrige ativamente modos de falha de MLLMs auditando sua divergência. O AuditDM ajusta finamente um MLLM como auditor por meio de aprendizado por reforço para gerar perguntas desafiadoras e imagens contrafactuais que maximizam a discordância entre os modelos-alvo. Uma vez treinado, o auditor descobre exemplares diversos e interpretáveis que revelam fraquezas do modelo e servem como dados livres de anotação para correção. Quando aplicado a modelos de última geração como Gemma-3 e PaliGemma-2, o AuditDM descobre mais de 20 tipos distintos de falha. O ajuste fino nessas descobertas melhora consistentemente todos os modelos em 16 benchmarks e permite que um modelo de 3B supere sua contraparte de 28B. Nossos resultados sugerem que, à medida que a escalabilidade de dados atinge retornos decrescentes, a auditoria direcionada de modelos oferece um caminho eficaz para diagnóstico e melhoria de modelos.

English

Conventional evaluation methods for multimodal LLMs (MLLMs) lack interpretability and are often insufficient to fully disclose significant capability gaps across models. To address this, we introduce AuditDM, an automated framework that actively discovers and rectifies MLLM failure modes by auditing their divergence. AuditDM fine-tunes an MLLM as an auditor via reinforcement learning to generate challenging questions and counterfactual images that maximize disagreement among target models. Once trained, the auditor uncovers diverse, interpretable exemplars that reveal model weaknesses and serve as annotation-free data for rectification. When applied to SoTA models like Gemma-3 and PaliGemma-2, AuditDM discovers more than 20 distinct failure types. Fine-tuning on these discoveries consistently improves all models across 16 benchmarks, and enables a 3B model to surpass its 28B counterpart. Our results suggest that as data scaling hits diminishing returns, targeted model auditing offers an effective path to model diagnosis and improvement.