이미지 선호도에서 시각적 언어 모델(VLM)을 위한 청취자 보상 사고
Listener-Rewarded Thinking in VLMs for Image Preferences
June 28, 2025
저자: Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets
cs.AI
초록
인간의 시각적 선호도에 대한 강건하고 일반화 가능한 보상 모델을 훈련하는 것은
텍스트-이미지 및 텍스트-비디오 생성 모델을 인간의 의도와 일치시키는 데 필수적입니다.
그러나 현재의 보상 모델은 종종 일반화에 실패하며, 지도 학습을 통한 미세 조정은
암기로 이어져 복잡한 주석 파이프라인을 요구합니다. 강화 학습(RL), 특히 그룹 상대
정책 최적화(GRPO)는 일반화를 개선하지만, 우리는 중요한 실패 모드를 발견했습니다:
모델의 추적이 동일한 출력을 평가하는 독립적이고 고정된 시각-언어 모델("리스너")의
추적과 모순될 때 추론 정확도가 크게 떨어지는 현상입니다. 이를 해결하기 위해 우리는
리스너-보강 GRPO 프레임워크를 도입했습니다. 여기서 리스너는 추론자의 사고 사슬을
재평가하여 밀도 있고 보정된 신뢰 점수를 제공하며, 이는 RL 보상 신호를 형성합니다.
이는 추론자가 정답을 맞추는 것뿐만 아니라 독립적인 모델에게 설득력 있는 설명을
생성하도록 장려합니다. 우리의 리스너-형 보상 체계는 ImageReward 벤치마크에서
최고 정확도(67.4%)를 달성했으며, 대규모 인간 선호도 데이터셋(120만 표, 순수 추론자
대비 최대 +6%)에서의 분포 외(OOD) 성능을 크게 개선했고, 강력한 GRPO 및 SFT
기준선과 비교하여 추론 모순을 줄였습니다. 이러한 결과는 리스너 기반 보상이 시각-언어
모델을 미묘한 인간 선호도와 일치시키는 확장 가능하고 데이터 효율적인 경로를
제공함을 보여줍니다. 우리는 추론 모델을 여기에 공개할 것입니다:
https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
English
Training robust and generalizable reward models for human visual preferences
is essential for aligning text-to-image and text-to-video generative models
with human intent. However, current reward models often fail to generalize, and
supervised fine-tuning leads to memorization, demanding complex annotation
pipelines. While reinforcement learning (RL), specifically Group Relative
Policy Optimization (GRPO), improves generalization, we uncover a key failure
mode: a significant drop in reasoning accuracy occurs when a model's reasoning
trace contradicts that of an independent, frozen vision-language model
("listener") evaluating the same output. To address this, we introduce a
listener-augmented GRPO framework. Here, the listener re-evaluates the
reasoner's chain-of-thought to provide a dense, calibrated confidence score,
shaping the RL reward signal. This encourages the reasoner not only to answer
correctly, but to produce explanations that are persuasive to an independent
model. Our listener-shaped reward scheme achieves best accuracy on the
ImageReward benchmark (67.4%), significantly improves out-of-distribution (OOD)
performance on a large-scale human preference dataset (1.2M votes, up to +6%
over naive reasoner), and reduces reasoning contradictions compared to strong
GRPO and SFT baselines. These results demonstrate that listener-based rewards
provide a scalable, data-efficient path to aligning vision-language models with
nuanced human preferences. We will release our reasoning model here:
https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.