Pensamiento Recompensado por el Oyente en VLMs para Preferencias de Imágenes
Listener-Rewarded Thinking in VLMs for Image Preferences
June 28, 2025
Autores: Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets
cs.AI
Resumen
Entrenar modelos de recompensa robustos y generalizables para las preferencias visuales humanas es esencial para alinear los modelos generativos de texto a imagen y texto a video con la intención humana. Sin embargo, los modelos de recompensa actuales a menudo no logran generalizar, y el ajuste fino supervisado conduce a la memorización, lo que exige pipelines de anotación complejos. Si bien el aprendizaje por refuerzo (RL), específicamente la Optimización de Política Relativa de Grupo (GRPO), mejora la generalización, descubrimos un modo de fallo clave: se produce una caída significativa en la precisión del razonamiento cuando la traza de razonamiento de un modelo contradice la de un modelo de visión-lenguaje independiente y congelado ("escucha") que evalúa la misma salida. Para abordar esto, introducimos un marco GRPO aumentado con un escucha. Aquí, el escucha reevalúa la cadena de pensamiento del razonador para proporcionar una puntuación de confianza densa y calibrada, moldeando la señal de recompensa del RL. Esto incentiva al razonador no solo a responder correctamente, sino a producir explicaciones que sean persuasivas para un modelo independiente. Nuestro esquema de recompensa moldeado por el escucha logra la mejor precisión en el benchmark ImageReward (67.4%), mejora significativamente el rendimiento fuera de distribución (OOD) en un conjunto de datos a gran escala de preferencias humanas (1.2M votos, hasta +6% sobre el razonador ingenuo) y reduce las contradicciones en el razonamiento en comparación con las líneas base fuertes de GRPO y SFT. Estos resultados demuestran que las recompensas basadas en el escucha proporcionan una ruta escalable y eficiente en datos para alinear los modelos de visión-lenguaje con las preferencias humanas matizadas. Publicaremos nuestro modelo de razonamiento aquí: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
English
Training robust and generalizable reward models for human visual preferences
is essential for aligning text-to-image and text-to-video generative models
with human intent. However, current reward models often fail to generalize, and
supervised fine-tuning leads to memorization, demanding complex annotation
pipelines. While reinforcement learning (RL), specifically Group Relative
Policy Optimization (GRPO), improves generalization, we uncover a key failure
mode: a significant drop in reasoning accuracy occurs when a model's reasoning
trace contradicts that of an independent, frozen vision-language model
("listener") evaluating the same output. To address this, we introduce a
listener-augmented GRPO framework. Here, the listener re-evaluates the
reasoner's chain-of-thought to provide a dense, calibrated confidence score,
shaping the RL reward signal. This encourages the reasoner not only to answer
correctly, but to produce explanations that are persuasive to an independent
model. Our listener-shaped reward scheme achieves best accuracy on the
ImageReward benchmark (67.4%), significantly improves out-of-distribution (OOD)
performance on a large-scale human preference dataset (1.2M votes, up to +6%
over naive reasoner), and reduces reasoning contradictions compared to strong
GRPO and SFT baselines. These results demonstrate that listener-based rewards
provide a scalable, data-efficient path to aligning vision-language models with
nuanced human preferences. We will release our reasoning model here:
https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.