ChatPaper.aiChatPaper

차이를 만드는 차이: 역량 격차 발견과 개선을 위한 모델 감사

Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

December 18, 2025
저자: Qihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu
cs.AI

초록

기존의 다중모달 LLM(MLLM) 평가 방법은 해석 가능성이 부족하며, 모델 간 중요한 능력 차이를 완전히 드러내기에는 종종 불충분합니다. 이를 해결하기 위해 우리는 MLLM의 편차를 감사하여 실패 모드를 능동적으로 발견하고 수정하는 자동화 프레임워크인 AuditDM을 소개합니다. AuditDM은 강화 학습을 통해 MLLM을 감사관으로 미세 조정하여 대상 모델들 간의 불일치를 최대화하는 난해한 질문과 반사실적 이미지를 생성합니다. 일단 훈련이 완료되면, 이 감사관은 모델의 약점을 드러내는 다양하고 해석 가능한 예시들을 발견하며, 이를 통해 주석 없이도 수정을 위한 데이터로 활용할 수 있습니다. Gemma-3 및 PaliGemma-2와 같은 최신 모델에 적용했을 때, AuditDM은 20개 이상의 뚜렷한 실패 유형을 발견했습니다. 이러한 발견을 바탕으로 미세 조정을 수행한 결과, 16개 벤치마크에서 모든 모델의 성능이 지속적으로 향상되었으며, 3B 모델이 28B 모델의 성능을 능가하는 결과를 보였습니다. 우리의 결과는 데이터 확장의 한계가 나타나는 상황에서 표적 모델 감사가 모델 진단 및 개선을 위한 효과적인 방안이 될 수 있음을 시사합니다.
English
Conventional evaluation methods for multimodal LLMs (MLLMs) lack interpretability and are often insufficient to fully disclose significant capability gaps across models. To address this, we introduce AuditDM, an automated framework that actively discovers and rectifies MLLM failure modes by auditing their divergence. AuditDM fine-tunes an MLLM as an auditor via reinforcement learning to generate challenging questions and counterfactual images that maximize disagreement among target models. Once trained, the auditor uncovers diverse, interpretable exemplars that reveal model weaknesses and serve as annotation-free data for rectification. When applied to SoTA models like Gemma-3 and PaliGemma-2, AuditDM discovers more than 20 distinct failure types. Fine-tuning on these discoveries consistently improves all models across 16 benchmarks, and enables a 3B model to surpass its 28B counterpart. Our results suggest that as data scaling hits diminishing returns, targeted model auditing offers an effective path to model diagnosis and improvement.
PDF51December 20, 2025