Luisteraar-Beloonde Denkwijze in VLMs voor Beeldvoorkeuren
Listener-Rewarded Thinking in VLMs for Image Preferences
June 28, 2025
Auteurs: Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets
cs.AI
Samenvatting
Het trainen van robuuste en generaliseerbare beloningsmodellen voor menselijke visuele voorkeuren is essentieel om tekst-naar-beeld en tekst-naar-video generatieve modellen af te stemmen op menselijke intenties. Huidige beloningsmodellen slagen er echter vaak niet in om te generaliseren, en supervised fine-tuning leidt tot memorisatie, wat complexe annotatiepijplijnen vereist. Hoewel reinforcement learning (RL), specifiek Group Relative Policy Optimization (GRPO), de generalisatie verbetert, ontdekken we een belangrijk falingspunt: een significante daling in redeneernauwkeurigheid treedt op wanneer het redeneerspoor van een model in tegenspraak is met dat van een onafhankelijk, bevroren vision-language model ("listener") dat dezelfde output evalueert. Om dit aan te pakken, introduceren we een listener-augmented GRPO-framework. Hierbij her-evalueert de listener de redeneerketen van de reasoner om een dicht, gekalibreerd vertrouwensscore te bieden, wat het RL-beloningssignaal vormt. Dit moedigt de reasoner niet alleen aan om correct te antwoorden, maar ook om uitleg te produceren die overtuigend is voor een onafhankelijk model. Ons listener-gestuurde beloningsschema behaalt de beste nauwkeurigheid op de ImageReward-benchmark (67,4%), verbetert de out-of-distribution (OOD) prestaties aanzienlijk op een grootschalige dataset van menselijke voorkeuren (1,2M stemmen, tot +6% boven een naïeve reasoner), en vermindert redeneer-tegenspraken in vergelijking met sterke GRPO- en SFT-baselines. Deze resultaten tonen aan dat listener-gebaseerde beloningen een schaalbare, data-efficiënte weg bieden om vision-language modellen af te stemmen op genuanceerde menselijke voorkeuren. We zullen ons redeneermodel hier vrijgeven: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
English
Training robust and generalizable reward models for human visual preferences
is essential for aligning text-to-image and text-to-video generative models
with human intent. However, current reward models often fail to generalize, and
supervised fine-tuning leads to memorization, demanding complex annotation
pipelines. While reinforcement learning (RL), specifically Group Relative
Policy Optimization (GRPO), improves generalization, we uncover a key failure
mode: a significant drop in reasoning accuracy occurs when a model's reasoning
trace contradicts that of an independent, frozen vision-language model
("listener") evaluating the same output. To address this, we introduce a
listener-augmented GRPO framework. Here, the listener re-evaluates the
reasoner's chain-of-thought to provide a dense, calibrated confidence score,
shaping the RL reward signal. This encourages the reasoner not only to answer
correctly, but to produce explanations that are persuasive to an independent
model. Our listener-shaped reward scheme achieves best accuracy on the
ImageReward benchmark (67.4%), significantly improves out-of-distribution (OOD)
performance on a large-scale human preference dataset (1.2M votes, up to +6%
over naive reasoner), and reduces reasoning contradictions compared to strong
GRPO and SFT baselines. These results demonstrate that listener-based rewards
provide a scalable, data-efficient path to aligning vision-language models with
nuanced human preferences. We will release our reasoning model here:
https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.