AutoRubric-T2I : Modèle de récompense robuste à base de règles pour l'alignement texte-image
AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment
May 20, 2026
Auteurs: Kuei-Chun Kao, Daixuan Huo, Yuanhao Ban, Cho-Jui Hsieh
cs.AI
Résumé
Aligner les modèles de génération texte-vers-image (T2I) avec les préférences humaines repose de plus en plus sur des modèles de récompense d’image qui notent ou classent les images générées selon leur adéquation aux prompts et leur qualité perceptuelle. Les modèles de récompense existants sont généralement entraînés comme des modèles de préférence de Bradley-Terry (BT) sur de larges corpus de préférences humaines, ce qui les rend coûteux à entraîner, difficiles à adapter et opaques dans leurs critères d’évaluation. Parallèlement, les juges de modèle vision-langage (VLM) peuvent fournir des évaluations plus fines via des rubriques textuelles, mais leurs règles de notation, conçues manuellement ou générées heuristiquement, peuvent ne pas refléter fidèlement les préférences humaines. Dans cet article, nous proposons AutoRubric-T2I, le premier cadre d’apprentissage de rubriques en T2I qui synthétise et sélectionne automatiquement des rubriques explicites pour guider les juges VLM. AutoRubric-T2I synthétise d’abord des traces de raisonnement à partir de paires de préférences en rubriques candidates, puis utilise un juge VLM pour évaluer des paires d’images sous chaque rubrique, produisant des différences de scores de rubriques par paire pour l’apprentissage de préférences. Pour éliminer les règles bruitées et redondantes, nous employons en outre un raffineur par régression logistique régularisée L1, qui sélectionne les N meilleures rubriques les plus discriminantes. Des évaluations approfondies montrent qu’AutoRubric-T2I produit des signaux de récompense de haute qualité et interprétables en utilisant moins de 0,01 % des données de préférence annotées, réduisant considérablement le besoin d’entraînement à grande échelle de modèles de récompense. Sur des benchmarks de récompense d’image tels que MMRB2, AutoRubric-T2I surpasse de solides modèles de récompense de référence. Nous validons également AutoRubric-T2I en tant que récompense RL sur des tâches T2I avales, notamment TIIF et UniGenBench++, où il améliore la qualité de génération par rapport aux modèles de récompense scalaires en utilisant le pipeline Flow-GRPO sur des modèles de diffusion.
English
Aligning Text-to-Image (T2I) generation models with human preferences increasingly relies on image reward models that score or rank generated images according to prompt alignment and perceptual quality. Existing reward models are commonly trained as Bradley-Terry (BT) preference models on large-scale human preference corpora, making them costly to train, difficult to adapt, and opaque in their evaluation criteria. Meanwhile, Vision-Language Model (VLM) judges can provide more fine-grained assessments through textual rubrics, but their manually designed or heuristically generated scoring rules may fail to reliably reflect human preferences. In this paper, we propose AutoRubric-T2I, the first rubric learning framework in T2I that automatically synthesizes and selects explicit rubrics for guiding VLM judges. AutoRubric-T2I first synthesizes reasoning traces from preference pairs into candidate rubrics, then uses a VLM judge to score paired images under each rubric, producing pairwise rubric-score differences for preference learning. To remove noisy and redundant rules, we further employ a ell_1-Regularized Logistic Regression Refiner, which selects the Top-N most discriminative rubrics. Extensive evaluations show that AutoRubric-T2I produces high-quality, interpretable reward signals using less than 0.01% of the annotated preference data, substantially reducing the need for large-scale reward-model training. On image reward benchmarks such as MMRB2, AutoRubric-T2I outperforms strong reward model baselines. We further validate AutoRubric-T2I as an RL reward on downstream T2I tasks, including TIIF and UniGenBench++, where it improves generation quality over scalar reward models using the Flow-GRPO pipeline on diffusion models.