ChatPaper.aiChatPaper

AutoRubric-T2I: Робастная модель вознаграждения на основе правил для согласования текста и изображения

AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment

May 20, 2026
Авторы: Kuei-Chun Kao, Daixuan Huo, Yuanhao Ban, Cho-Jui Hsieh
cs.AI

Аннотация

Согласование моделей генерации текста в изображение (T2I) с человеческими предпочтениями все чаще опирается на модели вознаграждения для изображений, которые оценивают или ранжируют сгенерированные изображения на основе соответствия промпту и перцептивного качества. Существующие модели вознаграждения обычно обучаются как модели предпочтений Брэдли-Терри (BT) на крупномасштабных корпусах человеческих предпочтений, что делает их дорогостоящими в обучении, сложными для адаптации и непрозрачными в своих критериях оценки. Между тем, судьи на основе визуально-языковых моделей (VLM) могут предоставлять более детализированные оценки с помощью текстовых рубрик, однако их вручную разработанные или эвристически сгенерированные правила оценки могут не отражать надежно человеческие предпочтения. В данной статье мы предлагаем AutoRubric-T2I — первую систему обучения рубрикам в T2I, которая автоматически синтезирует и выбирает явные рубрики для направления судей VLM. AutoRubric-T2I сначала синтезирует цепочки рассуждений из пар предпочтений в кандидатные рубрики, затем использует судью VLM для оценки парных изображений по каждой рубрике, получая попарные разности оценок рубрик для обучения предпочтениям. Для удаления шумных и избыточных правил мы дополнительно применяем регрессионный рефайнер с L1-регуляризацией, который отбирает Top-N наиболее дискриминативных рубрик. Обширные оценки показывают, что AutoRubric-T2I генерирует высококачественные, интерпретируемые сигналы вознаграждения, используя менее 0,01% аннотированных данных о предпочтениях, что существенно снижает необходимость в крупномасштабном обучении моделей вознаграждения. На эталонных тестах вознаграждения для изображений, таких как MMRB2, AutoRubric-T2I превосходит сильные базовые модели вознаграждения. Мы также проверяем AutoRubric-T2I в качестве вознаграждения для обучения с подкреплением на нижестоящих задачах T2I, включая TIIF и UniGenBench++, где он улучшает качество генерации по сравнению со скалярными моделями вознаграждения при использовании конвейера Flow-GRPO на диффузионных моделях.
English
Aligning Text-to-Image (T2I) generation models with human preferences increasingly relies on image reward models that score or rank generated images according to prompt alignment and perceptual quality. Existing reward models are commonly trained as Bradley-Terry (BT) preference models on large-scale human preference corpora, making them costly to train, difficult to adapt, and opaque in their evaluation criteria. Meanwhile, Vision-Language Model (VLM) judges can provide more fine-grained assessments through textual rubrics, but their manually designed or heuristically generated scoring rules may fail to reliably reflect human preferences. In this paper, we propose AutoRubric-T2I, the first rubric learning framework in T2I that automatically synthesizes and selects explicit rubrics for guiding VLM judges. AutoRubric-T2I first synthesizes reasoning traces from preference pairs into candidate rubrics, then uses a VLM judge to score paired images under each rubric, producing pairwise rubric-score differences for preference learning. To remove noisy and redundant rules, we further employ a ell_1-Regularized Logistic Regression Refiner, which selects the Top-N most discriminative rubrics. Extensive evaluations show that AutoRubric-T2I produces high-quality, interpretable reward signals using less than 0.01% of the annotated preference data, substantially reducing the need for large-scale reward-model training. On image reward benchmarks such as MMRB2, AutoRubric-T2I outperforms strong reward model baselines. We further validate AutoRubric-T2I as an RL reward on downstream T2I tasks, including TIIF and UniGenBench++, where it improves generation quality over scalar reward models using the Flow-GRPO pipeline on diffusion models.