Pensiero Premializzato dall'Ascoltatore nei Modelli Linguistici Visivi per le Preferenze Immagine
Listener-Rewarded Thinking in VLMs for Image Preferences
June 28, 2025
Autori: Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets
cs.AI
Abstract
L'addestramento di modelli di ricompensa robusti e generalizzabili per le preferenze visive umane è essenziale per allineare i modelli generativi da testo a immagine e da testo a video con l'intento umano. Tuttavia, gli attuali modelli di ricompensa spesso non riescono a generalizzare, e la messa a punto supervisionata porta a una memorizzazione, richiedendo pipeline di annotazione complesse. Sebbene l'apprendimento per rinforzo (RL), in particolare l'ottimizzazione relativa delle politiche di gruppo (GRPO), migliori la generalizzazione, abbiamo scoperto un problema chiave: si verifica un calo significativo nell'accuratezza del ragionamento quando la traccia di ragionamento di un modello contraddice quella di un modello visione-linguaggio indipendente e congelato ("ascoltatore") che valuta lo stesso output. Per affrontare questo problema, introduciamo un framework GRPO arricchito dall'ascoltatore. Qui, l'ascoltatore rivaluta la catena di pensiero del ragionatore per fornire un punteggio di confidenza denso e calibrato, modellando il segnale di ricompensa RL. Questo incoraggia il ragionatore non solo a rispondere correttamente, ma a produrre spiegazioni che siano persuasive per un modello indipendente. Il nostro schema di ricompensa modellato dall'ascoltatore raggiunge la migliore accuratezza sul benchmark ImageReward (67,4%), migliora significativamente le prestazioni fuori distribuzione (OOD) su un ampio dataset di preferenze umane (1,2M di voti, fino a +6% rispetto al ragionatore ingenuo) e riduce le contraddizioni di ragionamento rispetto ai forti baseline GRPO e SFT. Questi risultati dimostrano che le ricompense basate sull'ascoltatore forniscono un percorso scalabile ed efficiente in termini di dati per allineare i modelli visione-linguaggio con le sfumature delle preferenze umane. Rilasceremo il nostro modello di ragionamento qui: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
English
Training robust and generalizable reward models for human visual preferences
is essential for aligning text-to-image and text-to-video generative models
with human intent. However, current reward models often fail to generalize, and
supervised fine-tuning leads to memorization, demanding complex annotation
pipelines. While reinforcement learning (RL), specifically Group Relative
Policy Optimization (GRPO), improves generalization, we uncover a key failure
mode: a significant drop in reasoning accuracy occurs when a model's reasoning
trace contradicts that of an independent, frozen vision-language model
("listener") evaluating the same output. To address this, we introduce a
listener-augmented GRPO framework. Here, the listener re-evaluates the
reasoner's chain-of-thought to provide a dense, calibrated confidence score,
shaping the RL reward signal. This encourages the reasoner not only to answer
correctly, but to produce explanations that are persuasive to an independent
model. Our listener-shaped reward scheme achieves best accuracy on the
ImageReward benchmark (67.4%), significantly improves out-of-distribution (OOD)
performance on a large-scale human preference dataset (1.2M votes, up to +6%
over naive reasoner), and reduces reasoning contradictions compared to strong
GRPO and SFT baselines. These results demonstrate that listener-based rewards
provide a scalable, data-efficient path to aligning vision-language models with
nuanced human preferences. We will release our reasoning model here:
https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.