인간 주석 없이 자기 향상이 가능한 VLM 평가 모델
Self-Improving VLM Judges Without Human Annotations
December 2, 2025
저자: Inna Wanyin Lin, Yushi Hu, Shuyue Stella Li, Scott Geng, Pang Wei Koh, Luke Zettlemoyer, Tim Althoff, Marjan Ghazvininejad
cs.AI
초록
비전-언어 모델(VLM)의 효과적인 판단 모델은 모델 개발에 매우 중요합니다. 현재 VLM 판단 모델을 훈련하는 방법은 대규모 인간 선호도 주석에 주로 의존하고 있습니다. 그러나 이러한 접근 방식은 비용이 많이 들며, 모델이 빠르게 개선됨에 따라 주석은 쉽게 낡아빠지게 됩니다. 본 연구에서는 인간 선호도 주석 없이 오직 자체 합성된 데이터만을 사용하여 VLM 판단 모델을 자기 훈련시키는 프레임워크를 제시합니다. 우리의 방법은 반복적이며 세 단계로 구성됩니다: (1) 다양한 품질 수준의 다중모드 명령-응답 쌍을 생성하고, (2) 각 쌍에 대한 추론 과정과 판단을 생성하여 기대 품질 수준과 일치하지 않는 쌍을 제거하며, (3) 정확한 판단 답변과 그에 대한 추론 과정을 바탕으로 훈련합니다. 우리는 결과적인 판단 모델을 정확성, 선호도, 추론, 안전성, 시각 질의응답 등 다양한 영역에서 Multimodal RewardBench와 VL-RewardBench를 통해 평가합니다. 우리의 방법은 Llama-3.2-11B 다중모드 판단 모델의 VL-RewardBench 전체 정확도를 0.38에서 0.51로 향상시키며, 특히 일반성, 환각, 추론 차원에서 큰 향상을 보여 Llama-3.2-90B, GPT-4o, Claude 3.5 Sonnet 등 훨씬 더 큰 모델들을 종종 능가하는 성능을 보입니다. 이러한 인간 주석 불필요 방식의 전반적인 강점은 빠르게 발전하는 VLM 능력과 함께 진화하는 미래의 자기 판단 모델의 가능성을 시사합니다.
English
Effective judges of Vision-Language Models (VLMs) are crucial for model development. Current methods for training VLM judges mainly rely on large-scale human preference annotations. However, such an approach is costly, and the annotations easily become obsolete as models rapidly improve. In this work, we present a framework to self-train a VLM judge model without any human preference annotations, using only self-synthesized data. Our method is iterative and has three stages: (1) generate diverse multimodal instruction-response pairs at varying quality levels, (2) generate reasoning traces and judgments for each pair, removing the ones that do not match our expected quality levels, and (3) training on correct judge answers and their reasoning traces. We evaluate the resulting judge on Multimodal RewardBench and VL-RewardBench across domains: correctness, preference, reasoning, safety, and visual question-answering. Our method improves a Llama-3.2-11B multimodal judge from 0.38 to 0.51 in overall accuracy on VL-RewardBench, often outperforming much larger models including Llama-3.2-90B, GPT-4o, and Claude 3.5 Sonnet, with particularly strong gains in general, hallucination, and reasoning dimensions. The overall strength of these human-annotation-free results suggest the potential for a future self-judge that evolves alongside rapidly improving VLM capabilities.