Pensée Récompensée par l'Écoute dans les Modèles de Langage Visuel pour les Préférences d'Images
Listener-Rewarded Thinking in VLMs for Image Preferences
June 28, 2025
Auteurs: Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets
cs.AI
Résumé
L’entraînement de modèles de récompense robustes et généralisables pour les préférences visuelles humaines est essentiel pour aligner les modèles génératifs texte-image et texte-vidéo avec les intentions humaines. Cependant, les modèles de récompense actuels échouent souvent à généraliser, et le fine-tuning supervisé conduit à de la mémorisation, exigeant des pipelines d’annotation complexes. Bien que l’apprentissage par renforcement (RL), en particulier l’Optimisation Relative de Politique par Groupe (GRPO), améliore la généralisation, nous identifions un mode d’échec clé : une chute significative de la précision du raisonnement se produit lorsque la trace de raisonnement d’un modèle contredit celle d’un modèle vision-langage indépendant et figé (« écouteur ») évaluant la même sortie. Pour résoudre ce problème, nous introduisons un cadre GRPO augmenté par un écouteur. Ici, l’écouteur réévalue la chaîne de pensée du raisonneur pour fournir un score de confiance dense et calibré, influençant le signal de récompense RL. Cela encourage le raisonneur non seulement à répondre correctement, mais aussi à produire des explications convaincantes pour un modèle indépendant. Notre schéma de récompense guidé par l’écouteur atteint la meilleure précision sur le benchmark ImageReward (67,4 %), améliore significativement les performances hors distribution (OOD) sur un jeu de données de préférences humaines à grande échelle (1,2 million de votes, jusqu’à +6 % par rapport à un raisonneur naïf), et réduit les contradictions de raisonnement par rapport aux bases de référence GRPO et SFT fortes. Ces résultats démontrent que les récompenses basées sur l’écouteur offrent une voie évolutive et économe en données pour aligner les modèles vision-langage avec les préférences humaines nuancées. Nous publierons notre modèle de raisonnement ici : https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
English
Training robust and generalizable reward models for human visual preferences
is essential for aligning text-to-image and text-to-video generative models
with human intent. However, current reward models often fail to generalize, and
supervised fine-tuning leads to memorization, demanding complex annotation
pipelines. While reinforcement learning (RL), specifically Group Relative
Policy Optimization (GRPO), improves generalization, we uncover a key failure
mode: a significant drop in reasoning accuracy occurs when a model's reasoning
trace contradicts that of an independent, frozen vision-language model
("listener") evaluating the same output. To address this, we introduce a
listener-augmented GRPO framework. Here, the listener re-evaluates the
reasoner's chain-of-thought to provide a dense, calibrated confidence score,
shaping the RL reward signal. This encourages the reasoner not only to answer
correctly, but to produce explanations that are persuasive to an independent
model. Our listener-shaped reward scheme achieves best accuracy on the
ImageReward benchmark (67.4%), significantly improves out-of-distribution (OOD)
performance on a large-scale human preference dataset (1.2M votes, up to +6%
over naive reasoner), and reduces reasoning contradictions compared to strong
GRPO and SFT baselines. These results demonstrate that listener-based rewards
provide a scalable, data-efficient path to aligning vision-language models with
nuanced human preferences. We will release our reasoning model here:
https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.