AutoRubric-T2I: Modelo de Recompensa Robusto Baseado em Regras para Alinhamento Texto-para-Imagem

Resumo

Alinhar modelos de geração Texto-para-Imagem (T2I) com preferências humanas depende cada vez mais de modelos de recompensa de imagem, que classificam ou ranqueiam imagens geradas de acordo com o alinhamento com o prompt e a qualidade perceptual. Modelos de recompensa existentes são comumente treinados como modelos de preferência de Bradley-Terry (BT) em grandes corpora de preferências humanas, tornando-os caros para treinar, difíceis de adaptar e opacos em seus critérios de avaliação. Enquanto isso, juízes baseados em Modelos de Visão-Linguagem (VLM) podem fornecer avaliações mais refinadas por meio de rubricas textuais, mas suas regras de pontuação projetadas manualmente ou geradas heuristicamente podem falhar em refletir de forma confiável as preferências humanas. Neste artigo, propomos o AutoRubric-T2I, a primeira estrutura de aprendizado de rubricas em T2I que sintetiza e seleciona automaticamente rubricas explícitas para orientar juízes VLM. O AutoRubric-T2I primeiro sintetiza traços de raciocínio a partir de pares de preferência em rubricas candidatas; em seguida, usa um juiz VLM para pontuar imagens pareadas sob cada rubrica, produzindo diferenças de pontuação por rubrica para aprendizado de preferência. Para remover regras ruidosas e redundantes, empregamos ainda um Refinador de Regressão Logística Regularizada com ℓ₁, que seleciona as N rubricas mais discriminativas. Avaliações extensas mostram que o AutoRubric-T2I produz sinais de recompensa de alta qualidade e interpretáveis usando menos de 0,01% dos dados de preferência anotados, reduzindo substancialmente a necessidade de treinamento de modelos de recompensa em larga escala. Em benchmarks de recompensa de imagem, como MMRB2, o AutoRubric-T2I supera fortes modelos de recompensa baseline. Validamos ainda o AutoRubric-T2I como recompensa de RL em tarefas de T2I a jusante, incluindo TIIF e UniGenBench++, onde ele melhora a qualidade de geração em relação a modelos de recompensa escalares usando o pipeline Flow-GRPO em modelos de difusão.

English

Aligning Text-to-Image (T2I) generation models with human preferences increasingly relies on image reward models that score or rank generated images according to prompt alignment and perceptual quality. Existing reward models are commonly trained as Bradley-Terry (BT) preference models on large-scale human preference corpora, making them costly to train, difficult to adapt, and opaque in their evaluation criteria. Meanwhile, Vision-Language Model (VLM) judges can provide more fine-grained assessments through textual rubrics, but their manually designed or heuristically generated scoring rules may fail to reliably reflect human preferences. In this paper, we propose AutoRubric-T2I, the first rubric learning framework in T2I that automatically synthesizes and selects explicit rubrics for guiding VLM judges. AutoRubric-T2I first synthesizes reasoning traces from preference pairs into candidate rubrics, then uses a VLM judge to score paired images under each rubric, producing pairwise rubric-score differences for preference learning. To remove noisy and redundant rules, we further employ a ell_1-Regularized Logistic Regression Refiner, which selects the Top-N most discriminative rubrics. Extensive evaluations show that AutoRubric-T2I produces high-quality, interpretable reward signals using less than 0.01% of the annotated preference data, substantially reducing the need for large-scale reward-model training. On image reward benchmarks such as MMRB2, AutoRubric-T2I outperforms strong reward model baselines. We further validate AutoRubric-T2I as an RL reward on downstream T2I tasks, including TIIF and UniGenBench++, where it improves generation quality over scalar reward models using the Flow-GRPO pipeline on diffusion models.