Различия, имеющие значение: аудит моделей для выявления и устранения разрывов в возможностях
Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification
December 18, 2025
Авторы: Qihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu
cs.AI
Аннотация
Традиционные методы оценки мультимодальных больших языковых моделей (MLLM) страдают от недостаточной интерпретируемости и часто не позволяют полностью выявить значительные различия в возможностях между моделями. Для решения этой проблемы мы представляем AuditDM — автоматизированную систему, которая активно выявляет и исправляет режимы сбоев MLLM путем аудита их расхождений. AuditFM дообучает MLLM в роли аудитора с помощью обучения с подкреплением, чтобы генерировать сложные вопросы и контрафактные изображения, максимизирующие расхождения между целевыми моделями. После обучения аудитор обнаруживает разнообразные, интерпретируемые примеры, которые раскрывают слабые места моделей и служат данными для исправления без необходимости разметки. Применение AuditDM к современным моделям, таким как Gemma-3 и PaliGemma-2, выявило более 20 различных типов сбоев. Дообучение на этих выявленных примерах стабильно улучшает все модели по 16 тестовым наборам и позволяет модели объемом 3B превзойти свою 28B версию. Наши результаты показывают, что по мере исчерпания потенциала масштабирования данных целенаправленный аудит моделей предлагает эффективный путь для диагностики и улучшения моделей.
English
Conventional evaluation methods for multimodal LLMs (MLLMs) lack interpretability and are often insufficient to fully disclose significant capability gaps across models. To address this, we introduce AuditDM, an automated framework that actively discovers and rectifies MLLM failure modes by auditing their divergence. AuditDM fine-tunes an MLLM as an auditor via reinforcement learning to generate challenging questions and counterfactual images that maximize disagreement among target models. Once trained, the auditor uncovers diverse, interpretable exemplars that reveal model weaknesses and serve as annotation-free data for rectification. When applied to SoTA models like Gemma-3 and PaliGemma-2, AuditDM discovers more than 20 distinct failure types. Fine-tuning on these discoveries consistently improves all models across 16 benchmarks, and enables a 3B model to surpass its 28B counterpart. Our results suggest that as data scaling hits diminishing returns, targeted model auditing offers an effective path to model diagnosis and improvement.