AutoRubric-T2I: Modelo de recompensa robusto basado en reglas para la alineación texto-imagen
AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment
May 20, 2026
Autores: Kuei-Chun Kao, Daixuan Huo, Yuanhao Ban, Cho-Jui Hsieh
cs.AI
Resumen
La alineación de los modelos de generación de texto a imagen (T2I) con las preferencias humanas depende cada vez más de modelos de recompensa de imagen que puntúan o clasifican las imágenes generadas según su alineación con la indicación y su calidad perceptiva. Los modelos de recompensa existentes suelen entrenarse como modelos de preferencia de Bradley-Terry (BT) sobre grandes corpus de preferencias humanas, lo que los hace costosos de entrenar, difíciles de adaptar y opacos en sus criterios de evaluación. Mientras tanto, los evaluadores basados en modelos de lenguaje y visión (VLM) pueden proporcionar evaluaciones más detalladas mediante rúbricas textuales, pero sus reglas de puntuación, diseñadas manualmente o generadas heurísticamente, pueden no reflejar de manera fiable las preferencias humanas. En este artículo, proponemos AutoRubric-T2I, el primer marco de aprendizaje de rúbricas en T2I que sintetiza y selecciona automáticamente rúbricas explícitas para guiar a los evaluadores VLM. AutoRubric-T2I primero sintetiza trazas de razonamiento a partir de pares de preferencias en rúbricas candidatas, luego utiliza un evaluador VLM para puntuar imágenes emparejadas bajo cada rúbrica, generando diferencias de puntuación entre pares para el aprendizaje de preferencias. Para eliminar reglas ruidosas y redundantes, empleamos además un refinador de regresión logística con regularización L1, que selecciona las N rúbricas más discriminativas. Evaluaciones exhaustivas muestran que AutoRubric-T2I produce señales de recompensa interpretables y de alta calidad utilizando menos del 0.01% de los datos de preferencia anotados, lo que reduce sustancialmente la necesidad de entrenar modelos de recompensa a gran escala. En puntos de referencia de recompensa de imagen como MMRB2, AutoRubric-T2I supera a los modelos de recompensa base más potentes. Validamos además AutoRubric-T2I como recompensa de RL en tareas T2I posteriores, incluyendo TIIF y UniGenBench++, donde mejora la calidad de generación en comparación con modelos de recompensa escalares utilizando el pipeline Flow-GRPO en modelos de difusión.
English
Aligning Text-to-Image (T2I) generation models with human preferences increasingly relies on image reward models that score or rank generated images according to prompt alignment and perceptual quality. Existing reward models are commonly trained as Bradley-Terry (BT) preference models on large-scale human preference corpora, making them costly to train, difficult to adapt, and opaque in their evaluation criteria. Meanwhile, Vision-Language Model (VLM) judges can provide more fine-grained assessments through textual rubrics, but their manually designed or heuristically generated scoring rules may fail to reliably reflect human preferences. In this paper, we propose AutoRubric-T2I, the first rubric learning framework in T2I that automatically synthesizes and selects explicit rubrics for guiding VLM judges. AutoRubric-T2I first synthesizes reasoning traces from preference pairs into candidate rubrics, then uses a VLM judge to score paired images under each rubric, producing pairwise rubric-score differences for preference learning. To remove noisy and redundant rules, we further employ a ell_1-Regularized Logistic Regression Refiner, which selects the Top-N most discriminative rubrics. Extensive evaluations show that AutoRubric-T2I produces high-quality, interpretable reward signals using less than 0.01% of the annotated preference data, substantially reducing the need for large-scale reward-model training. On image reward benchmarks such as MMRB2, AutoRubric-T2I outperforms strong reward model baselines. We further validate AutoRubric-T2I as an RL reward on downstream T2I tasks, including TIIF and UniGenBench++, where it improves generation quality over scalar reward models using the Flow-GRPO pipeline on diffusion models.