Pensamiento Recompensado por el Oyente en VLMs para Preferencias de Imágenes

Resumen

Entrenar modelos de recompensa robustos y generalizables para las preferencias visuales humanas es esencial para alinear los modelos generativos de texto a imagen y texto a video con la intención humana. Sin embargo, los modelos de recompensa actuales a menudo no logran generalizar, y el ajuste fino supervisado conduce a la memorización, lo que exige pipelines de anotación complejos. Si bien el aprendizaje por refuerzo (RL), específicamente la Optimización de Política Relativa de Grupo (GRPO), mejora la generalización, descubrimos un modo de fallo clave: se produce una caída significativa en la precisión del razonamiento cuando la traza de razonamiento de un modelo contradice la de un modelo de visión-lenguaje independiente y congelado ("escucha") que evalúa la misma salida. Para abordar esto, introducimos un marco GRPO aumentado con un escucha. Aquí, el escucha reevalúa la cadena de pensamiento del razonador para proporcionar una puntuación de confianza densa y calibrada, moldeando la señal de recompensa del RL. Esto incentiva al razonador no solo a responder correctamente, sino a producir explicaciones que sean persuasivas para un modelo independiente. Nuestro esquema de recompensa moldeado por el escucha logra la mejor precisión en el benchmark ImageReward (67.4%), mejora significativamente el rendimiento fuera de distribución (OOD) en un conjunto de datos a gran escala de preferencias humanas (1.2M votos, hasta +6% sobre el razonador ingenuo) y reduce las contradicciones en el razonamiento en comparación con las líneas base fuertes de GRPO y SFT. Estos resultados demuestran que las recompensas basadas en el escucha proporcionan una ruta escalable y eficiente en datos para alinear los modelos de visión-lenguaje con las preferencias humanas matizadas. Publicaremos nuestro modelo de razonamiento aquí: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.

English

Training robust and generalizable reward models for human visual preferences is essential for aligning text-to-image and text-to-video generative models with human intent. However, current reward models often fail to generalize, and supervised fine-tuning leads to memorization, demanding complex annotation pipelines. While reinforcement learning (RL), specifically Group Relative Policy Optimization (GRPO), improves generalization, we uncover a key failure mode: a significant drop in reasoning accuracy occurs when a model's reasoning trace contradicts that of an independent, frozen vision-language model ("listener") evaluating the same output. To address this, we introduce a listener-augmented GRPO framework. Here, the listener re-evaluates the reasoner's chain-of-thought to provide a dense, calibrated confidence score, shaping the RL reward signal. This encourages the reasoner not only to answer correctly, but to produce explanations that are persuasive to an independent model. Our listener-shaped reward scheme achieves best accuracy on the ImageReward benchmark (67.4%), significantly improves out-of-distribution (OOD) performance on a large-scale human preference dataset (1.2M votes, up to +6% over naive reasoner), and reduces reasoning contradictions compared to strong GRPO and SFT baselines. These results demonstrate that listener-based rewards provide a scalable, data-efficient path to aligning vision-language models with nuanced human preferences. We will release our reasoning model here: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.

Pensamiento Recompensado por el Oyente en VLMs para Preferencias de Imágenes

Listener-Rewarded Thinking in VLMs for Image Preferences

Resumen

Support