Pensamento Recompensado pelo Ouvinte em VLMs para Preferências de Imagem

Resumo

Treinar modelos de recompensa robustos e generalizáveis para preferências visuais humanas é essencial para alinhar modelos generativos de texto para imagem e texto para vídeo com a intenção humana. No entanto, os modelos de recompensa atuais frequentemente falham em generalizar, e o ajuste fino supervisionado leva à memorização, exigindo pipelines complexos de anotação. Embora o aprendizado por reforço (RL), especificamente a Otimização de Política Relativa de Grupo (GRPO), melhore a generalização, descobrimos um modo de falha crítico: uma queda significativa na precisão do raciocínio ocorre quando o traço de raciocínio de um modelo contradiz o de um modelo independente e congelado de visão e linguagem ("ouvinte") avaliando a mesma saída. Para resolver isso, introduzimos um framework GRPO aumentado por ouvinte. Aqui, o ouvinte reavalia a cadeia de pensamento do raciocinador para fornecer uma pontuação de confiança densa e calibrada, moldando o sinal de recompensa do RL. Isso incentiva o raciocinador não apenas a responder corretamente, mas a produzir explicações que sejam persuasivas para um modelo independente. Nosso esquema de recompensa moldado pelo ouvinte alcança a melhor precisão no benchmark ImageReward (67,4%), melhora significativamente o desempenho fora da distribuição (OOD) em um grande conjunto de dados de preferências humanas (1,2M de votos, até +6% em relação ao raciocinador ingênuo) e reduz contradições de raciocínio em comparação com fortes baselines de GRPO e SFT. Esses resultados demonstram que recompensas baseadas em ouvintes fornecem um caminho escalável e eficiente em termos de dados para alinhar modelos de visão e linguagem com preferências humanas sutis. Lançaremos nosso modelo de raciocínio aqui: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.

English

Training robust and generalizable reward models for human visual preferences is essential for aligning text-to-image and text-to-video generative models with human intent. However, current reward models often fail to generalize, and supervised fine-tuning leads to memorization, demanding complex annotation pipelines. While reinforcement learning (RL), specifically Group Relative Policy Optimization (GRPO), improves generalization, we uncover a key failure mode: a significant drop in reasoning accuracy occurs when a model's reasoning trace contradicts that of an independent, frozen vision-language model ("listener") evaluating the same output. To address this, we introduce a listener-augmented GRPO framework. Here, the listener re-evaluates the reasoner's chain-of-thought to provide a dense, calibrated confidence score, shaping the RL reward signal. This encourages the reasoner not only to answer correctly, but to produce explanations that are persuasive to an independent model. Our listener-shaped reward scheme achieves best accuracy on the ImageReward benchmark (67.4%), significantly improves out-of-distribution (OOD) performance on a large-scale human preference dataset (1.2M votes, up to +6% over naive reasoner), and reduces reasoning contradictions compared to strong GRPO and SFT baselines. These results demonstrate that listener-based rewards provide a scalable, data-efficient path to aligning vision-language models with nuanced human preferences. We will release our reasoning model here: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.

Pensamento Recompensado pelo Ouvinte em VLMs para Preferências de Imagem

Listener-Rewarded Thinking in VLMs for Image Preferences

Resumo

Support