Слушатель-ориентированное мышление в VLMs для предпочтений изображений

Аннотация

Обучение устойчивых и обобщаемых моделей вознаграждения для визуальных предпочтений человека является ключевым для согласования генеративных моделей "текст-изображение" и "текст-видео" с человеческими намерениями. Однако современные модели вознаграждения часто не справляются с обобщением, а контролируемая тонкая настройка приводит к запоминанию, требуя сложных аннотационных конвейеров. Хотя обучение с подкреплением (RL), в частности Group Relative Policy Optimization (GRPO), улучшает обобщение, мы обнаруживаем ключевую проблему: значительное снижение точности рассуждений происходит, когда траектория рассуждений модели противоречит траектории независимой, замороженной модели "визуальный язык" ("слушатель"), оценивающей тот же результат. Для решения этой проблемы мы представляем фреймворк GRPO, дополненный слушателем. Здесь слушатель переоценивает цепочку рассуждений модели, предоставляя плотную, калиброванную оценку уверенности, которая формирует сигнал вознаграждения RL. Это побуждает модель не только давать правильные ответы, но и создавать объяснения, убедительные для независимой модели. Наша схема вознаграждения, основанная на слушателе, достигает наилучшей точности на бенчмарке ImageReward (67,4%), значительно улучшает производительность на данных, выходящих за пределы распределения (OOD), на крупном наборе данных человеческих предпочтений (1,2 млн голосов, до +6% по сравнению с наивной моделью), и сокращает противоречия в рассуждениях по сравнению с сильными базовыми моделями GRPO и SFT. Эти результаты демонстрируют, что вознаграждения, основанные на слушателе, предоставляют масштабируемый и эффективный по данным путь для согласования моделей "визуальный язык" с тонкими человеческими предпочтениями. Мы опубликуем нашу модель рассуждений здесь: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.

English

Training robust and generalizable reward models for human visual preferences is essential for aligning text-to-image and text-to-video generative models with human intent. However, current reward models often fail to generalize, and supervised fine-tuning leads to memorization, demanding complex annotation pipelines. While reinforcement learning (RL), specifically Group Relative Policy Optimization (GRPO), improves generalization, we uncover a key failure mode: a significant drop in reasoning accuracy occurs when a model's reasoning trace contradicts that of an independent, frozen vision-language model ("listener") evaluating the same output. To address this, we introduce a listener-augmented GRPO framework. Here, the listener re-evaluates the reasoner's chain-of-thought to provide a dense, calibrated confidence score, shaping the RL reward signal. This encourages the reasoner not only to answer correctly, but to produce explanations that are persuasive to an independent model. Our listener-shaped reward scheme achieves best accuracy on the ImageReward benchmark (67.4%), significantly improves out-of-distribution (OOD) performance on a large-scale human preference dataset (1.2M votes, up to +6% over naive reasoner), and reduces reasoning contradictions compared to strong GRPO and SFT baselines. These results demonstrate that listener-based rewards provide a scalable, data-efficient path to aligning vision-language models with nuanced human preferences. We will release our reasoning model here: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.

Слушатель-ориентированное мышление в VLMs для предпочтений изображений

Listener-Rewarded Thinking in VLMs for Image Preferences

Аннотация

Support