Pensamento Recompensado pelo Ouvinte em VLMs para Preferências de Imagem
Listener-Rewarded Thinking in VLMs for Image Preferences
June 28, 2025
Autores: Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets
cs.AI
Resumo
Treinar modelos de recompensa robustos e generalizáveis para preferências visuais humanas é essencial para alinhar modelos generativos de texto para imagem e texto para vídeo com a intenção humana. No entanto, os modelos de recompensa atuais frequentemente falham em generalizar, e o ajuste fino supervisionado leva à memorização, exigindo pipelines complexos de anotação. Embora o aprendizado por reforço (RL), especificamente a Otimização de Política Relativa de Grupo (GRPO), melhore a generalização, descobrimos um modo de falha crítico: uma queda significativa na precisão do raciocínio ocorre quando o traço de raciocínio de um modelo contradiz o de um modelo independente e congelado de visão e linguagem ("ouvinte") avaliando a mesma saída. Para resolver isso, introduzimos um framework GRPO aumentado por ouvinte. Aqui, o ouvinte reavalia a cadeia de pensamento do raciocinador para fornecer uma pontuação de confiança densa e calibrada, moldando o sinal de recompensa do RL. Isso incentiva o raciocinador não apenas a responder corretamente, mas a produzir explicações que sejam persuasivas para um modelo independente. Nosso esquema de recompensa moldado pelo ouvinte alcança a melhor precisão no benchmark ImageReward (67,4%), melhora significativamente o desempenho fora da distribuição (OOD) em um grande conjunto de dados de preferências humanas (1,2M de votos, até +6% em relação ao raciocinador ingênuo) e reduz contradições de raciocínio em comparação com fortes baselines de GRPO e SFT. Esses resultados demonstram que recompensas baseadas em ouvintes fornecem um caminho escalável e eficiente em termos de dados para alinhar modelos de visão e linguagem com preferências humanas sutis. Lançaremos nosso modelo de raciocínio aqui: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
English
Training robust and generalizable reward models for human visual preferences
is essential for aligning text-to-image and text-to-video generative models
with human intent. However, current reward models often fail to generalize, and
supervised fine-tuning leads to memorization, demanding complex annotation
pipelines. While reinforcement learning (RL), specifically Group Relative
Policy Optimization (GRPO), improves generalization, we uncover a key failure
mode: a significant drop in reasoning accuracy occurs when a model's reasoning
trace contradicts that of an independent, frozen vision-language model
("listener") evaluating the same output. To address this, we introduce a
listener-augmented GRPO framework. Here, the listener re-evaluates the
reasoner's chain-of-thought to provide a dense, calibrated confidence score,
shaping the RL reward signal. This encourages the reasoner not only to answer
correctly, but to produce explanations that are persuasive to an independent
model. Our listener-shaped reward scheme achieves best accuracy on the
ImageReward benchmark (67.4%), significantly improves out-of-distribution (OOD)
performance on a large-scale human preference dataset (1.2M votes, up to +6%
over naive reasoner), and reduces reasoning contradictions compared to strong
GRPO and SFT baselines. These results demonstrate that listener-based rewards
provide a scalable, data-efficient path to aligning vision-language models with
nuanced human preferences. We will release our reasoning model here:
https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.