Pensiero Premializzato dall'Ascoltatore nei Modelli Linguistici Visivi per le Preferenze Immagine

Abstract

L'addestramento di modelli di ricompensa robusti e generalizzabili per le preferenze visive umane è essenziale per allineare i modelli generativi da testo a immagine e da testo a video con l'intento umano. Tuttavia, gli attuali modelli di ricompensa spesso non riescono a generalizzare, e la messa a punto supervisionata porta a una memorizzazione, richiedendo pipeline di annotazione complesse. Sebbene l'apprendimento per rinforzo (RL), in particolare l'ottimizzazione relativa delle politiche di gruppo (GRPO), migliori la generalizzazione, abbiamo scoperto un problema chiave: si verifica un calo significativo nell'accuratezza del ragionamento quando la traccia di ragionamento di un modello contraddice quella di un modello visione-linguaggio indipendente e congelato ("ascoltatore") che valuta lo stesso output. Per affrontare questo problema, introduciamo un framework GRPO arricchito dall'ascoltatore. Qui, l'ascoltatore rivaluta la catena di pensiero del ragionatore per fornire un punteggio di confidenza denso e calibrato, modellando il segnale di ricompensa RL. Questo incoraggia il ragionatore non solo a rispondere correttamente, ma a produrre spiegazioni che siano persuasive per un modello indipendente. Il nostro schema di ricompensa modellato dall'ascoltatore raggiunge la migliore accuratezza sul benchmark ImageReward (67,4%), migliora significativamente le prestazioni fuori distribuzione (OOD) su un ampio dataset di preferenze umane (1,2M di voti, fino a +6% rispetto al ragionatore ingenuo) e riduce le contraddizioni di ragionamento rispetto ai forti baseline GRPO e SFT. Questi risultati dimostrano che le ricompense basate sull'ascoltatore forniscono un percorso scalabile ed efficiente in termini di dati per allineare i modelli visione-linguaggio con le sfumature delle preferenze umane. Rilasceremo il nostro modello di ragionamento qui: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.

English

Training robust and generalizable reward models for human visual preferences is essential for aligning text-to-image and text-to-video generative models with human intent. However, current reward models often fail to generalize, and supervised fine-tuning leads to memorization, demanding complex annotation pipelines. While reinforcement learning (RL), specifically Group Relative Policy Optimization (GRPO), improves generalization, we uncover a key failure mode: a significant drop in reasoning accuracy occurs when a model's reasoning trace contradicts that of an independent, frozen vision-language model ("listener") evaluating the same output. To address this, we introduce a listener-augmented GRPO framework. Here, the listener re-evaluates the reasoner's chain-of-thought to provide a dense, calibrated confidence score, shaping the RL reward signal. This encourages the reasoner not only to answer correctly, but to produce explanations that are persuasive to an independent model. Our listener-shaped reward scheme achieves best accuracy on the ImageReward benchmark (67.4%), significantly improves out-of-distribution (OOD) performance on a large-scale human preference dataset (1.2M votes, up to +6% over naive reasoner), and reduces reasoning contradictions compared to strong GRPO and SFT baselines. These results demonstrate that listener-based rewards provide a scalable, data-efficient path to aligning vision-language models with nuanced human preferences. We will release our reasoning model here: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.

Pensiero Premializzato dall'Ascoltatore nei Modelli Linguistici Visivi per le Preferenze Immagine

Listener-Rewarded Thinking in VLMs for Image Preferences

Abstract

Support