Слушатель-ориентированное мышление в VLMs для предпочтений изображений
Listener-Rewarded Thinking in VLMs for Image Preferences
June 28, 2025
Авторы: Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets
cs.AI
Аннотация
Обучение устойчивых и обобщаемых моделей вознаграждения для визуальных предпочтений человека является ключевым для согласования генеративных моделей "текст-изображение" и "текст-видео" с человеческими намерениями. Однако современные модели вознаграждения часто не справляются с обобщением, а контролируемая тонкая настройка приводит к запоминанию, требуя сложных аннотационных конвейеров. Хотя обучение с подкреплением (RL), в частности Group Relative Policy Optimization (GRPO), улучшает обобщение, мы обнаруживаем ключевую проблему: значительное снижение точности рассуждений происходит, когда траектория рассуждений модели противоречит траектории независимой, замороженной модели "визуальный язык" ("слушатель"), оценивающей тот же результат. Для решения этой проблемы мы представляем фреймворк GRPO, дополненный слушателем. Здесь слушатель переоценивает цепочку рассуждений модели, предоставляя плотную, калиброванную оценку уверенности, которая формирует сигнал вознаграждения RL. Это побуждает модель не только давать правильные ответы, но и создавать объяснения, убедительные для независимой модели. Наша схема вознаграждения, основанная на слушателе, достигает наилучшей точности на бенчмарке ImageReward (67,4%), значительно улучшает производительность на данных, выходящих за пределы распределения (OOD), на крупном наборе данных человеческих предпочтений (1,2 млн голосов, до +6% по сравнению с наивной моделью), и сокращает противоречия в рассуждениях по сравнению с сильными базовыми моделями GRPO и SFT. Эти результаты демонстрируют, что вознаграждения, основанные на слушателе, предоставляют масштабируемый и эффективный по данным путь для согласования моделей "визуальный язык" с тонкими человеческими предпочтениями. Мы опубликуем нашу модель рассуждений здесь: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
English
Training robust and generalizable reward models for human visual preferences
is essential for aligning text-to-image and text-to-video generative models
with human intent. However, current reward models often fail to generalize, and
supervised fine-tuning leads to memorization, demanding complex annotation
pipelines. While reinforcement learning (RL), specifically Group Relative
Policy Optimization (GRPO), improves generalization, we uncover a key failure
mode: a significant drop in reasoning accuracy occurs when a model's reasoning
trace contradicts that of an independent, frozen vision-language model
("listener") evaluating the same output. To address this, we introduce a
listener-augmented GRPO framework. Here, the listener re-evaluates the
reasoner's chain-of-thought to provide a dense, calibrated confidence score,
shaping the RL reward signal. This encourages the reasoner not only to answer
correctly, but to produce explanations that are persuasive to an independent
model. Our listener-shaped reward scheme achieves best accuracy on the
ImageReward benchmark (67.4%), significantly improves out-of-distribution (OOD)
performance on a large-scale human preference dataset (1.2M votes, up to +6%
over naive reasoner), and reduces reasoning contradictions compared to strong
GRPO and SFT baselines. These results demonstrate that listener-based rewards
provide a scalable, data-efficient path to aligning vision-language models with
nuanced human preferences. We will release our reasoning model here:
https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.