RationalRewards: Вознаграждения за логику масштабируют визуальное создание как во время обучения, так и во время тестирования

Аннотация

Большинство моделей оценки для визуальной генерации сводят богатые человеческие суждения к единственной необъяснимой оценке, отбрасывая обоснования, лежащие в основе предпочтений. Мы демонстрируем, что обучение моделей оценки формулировать явные многомерные критические анализы перед выставлением балла превращает их из пассивных оценщиков в активные инструменты оптимизации, улучшая генераторы двумя взаимодополняющими способами: на этапе обучения структурированные обоснования предоставляют интерпретируемые, детализированные вознаграждения для обучения с подкреплением; на этапе тестирования цикл «Генерация-Критика-Уточнение» превращает критические анализы в целенаправленные редакции промптов, которые улучшают результаты без каких-либо обновлений параметров. Чтобы обучить такую модель оценки без трудоёмких разметок обоснований, мы представляем Preference-Anchored Rationalization (PARROT) — принципиальную框架, которая восстанавливает качественные обоснования из легкодоступных данных о предпочтениях с помощью анкерной генерации, фильтрации на согласованность и дистилляции. Получившаяся модель, RationalRewards (8B), достигает наилучших результатов в прогнозировании предпочтений среди открытых моделей оценки, конкурируя с Gemini-2.5-Pro, при этом используя в 10–20 раз меньше обучающих данных, чем сопоставимые базовые модели. В качестве вознаграждения для обучения с подкреплением она последовательно улучшает генераторы для текста-в-изображение и редактирования изображений по сравнению со скалярными аналогами. Наиболее поразительно, что её цикл критики и уточнения на этапе тестирования соответствует или превосходит тонкую настройку на основе обучения с подкреплением в нескольких тестах, что позволяет предположить, что структурированное рассуждение может раскрыть скрытые возможности существующих генераторов, которые неоптимальные промпты не могут активировать.

English

Most reward models for visual generation reduce rich human judgments to a single unexplained score, discarding the reasoning that underlies preference. We show that teaching reward models to produce explicit, multi-dimensional critiques before scoring transforms them from passive evaluators into active optimization tools, improving generators in two complementary ways: at training time, structured rationales provide interpretable, fine-grained rewards for reinforcement learning; at test time, a Generate-Critique-Refine loop turns critiques into targeted prompt revisions that improve outputs without any parameter updates. To train such a reward model without costly rationale annotations, we introduce Preference-Anchored Rationalization (PARROT), a principled framework that recovers high-quality rationales from readily available preference data through anchored generation, consistency filtering, and distillation. The resulting model, RationalRewards (8B), achieves state-of-the-art preference prediction among open-source reward models, competitive with Gemini-2.5-Pro, while using 10-20x less training data than comparable baselines. As an RL reward, it consistently improves text-to-image and image-editing generators beyond scalar alternatives. Most strikingly, its test-time critique-and-refine loop matches or exceeds RL-based fine-tuning on several benchmarks, suggesting that structured reasoning can unlock latent capabilities in existing generators that suboptimal prompts fail to elicit.

RationalRewards: Вознаграждения за логику масштабируют визуальное создание как во время обучения, так и во время тестирования

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Аннотация

Support