AutoRubric-T2I: Robustes regelbasiertes Belohnungsmodell für die Text-zu-Bild-Ausrichtung

Zusammenfassung

Die Ausrichtung von Text-zu-Bild (T2I)-Generierungsmodellen an menschlichen Präferenzen stützt sich zunehmend auf Bildbelohnungsmodelle, die generierte Bilder hinsichtlich Prompt-Kohärenz und Wahrnehmungsqualität bewerten oder einordnen. Existierende Belohnungsmodelle werden üblicherweise als Bradley-Terry (BT)-Präferenzmodelle auf großen, von Menschen annotierten Präferenzkorpora trainiert, was sie kostspielig im Training, schwer anpassbar und undurchsichtig in ihren Bewertungskriterien macht. Gleichzeitig können Vision-Language-Modell (VLM)-Richter durch textuelle Bewertungsrubriken detailliertere Einschätzungen liefern, jedoch spiegeln ihre manuell entworfenen oder heuristisch generierten Bewertungsregeln möglicherweise nicht zuverlässig menschliche Präferenzen wider. In dieser Arbeit schlagen wir AutoRubric-T2I vor, das erste Rubrikenlern-Framework im T2I-Bereich, das automatisch explizite Rubriken zur Führung von VLM-Richtern synthetisiert und auswählt. AutoRubric-T2I synthetisiert zunächst aus Präferenzpaaren Reasoning-Spuren in Kandidatenrubriken und nutzt dann einen VLM-Richter, um gepaarte Bilder unter jeder Rubrik zu bewerten, wodurch paarweise Rubrik-Bewertungsdifferenzen für das Präferenzlernen erzeugt werden. Um verrauschte und redundante Regeln zu entfernen, setzen wir zudem einen \(\ell_1\)-regularisierten logistischen Regressionsverfeinerer ein, der die Top-\(N\) diskriminativsten Rubriken auswählt. Umfangreiche Evaluationen zeigen, dass AutoRubric-T2I mit weniger als 0,01 % der annotierten Präferenzdaten qualitativ hochwertige, interpretierbare Belohnungssignale erzeugt und damit den Bedarf an umfangreichem Training von Belohnungsmodellen erheblich reduziert. Auf Bildbewertungs-Benchmarks wie MMRB2 übertrifft AutoRubric-T2I starke Belohnungsmodell-Baselines. Wir validieren AutoRubric-T2I zudem als RL-Belohnung für nachgelagerte T2I-Aufgaben, darunter TIIF und UniGenBench++, wo es die Generierungsqualität gegenüber skalaren Belohnungsmodellen unter Verwendung der Flow-GRPO-Pipeline auf Diffusionsmodellen verbessert.

English

Aligning Text-to-Image (T2I) generation models with human preferences increasingly relies on image reward models that score or rank generated images according to prompt alignment and perceptual quality. Existing reward models are commonly trained as Bradley-Terry (BT) preference models on large-scale human preference corpora, making them costly to train, difficult to adapt, and opaque in their evaluation criteria. Meanwhile, Vision-Language Model (VLM) judges can provide more fine-grained assessments through textual rubrics, but their manually designed or heuristically generated scoring rules may fail to reliably reflect human preferences. In this paper, we propose AutoRubric-T2I, the first rubric learning framework in T2I that automatically synthesizes and selects explicit rubrics for guiding VLM judges. AutoRubric-T2I first synthesizes reasoning traces from preference pairs into candidate rubrics, then uses a VLM judge to score paired images under each rubric, producing pairwise rubric-score differences for preference learning. To remove noisy and redundant rules, we further employ a ell_1-Regularized Logistic Regression Refiner, which selects the Top-N most discriminative rubrics. Extensive evaluations show that AutoRubric-T2I produces high-quality, interpretable reward signals using less than 0.01% of the annotated preference data, substantially reducing the need for large-scale reward-model training. On image reward benchmarks such as MMRB2, AutoRubric-T2I outperforms strong reward model baselines. We further validate AutoRubric-T2I as an RL reward on downstream T2I tasks, including TIIF and UniGenBench++, where it improves generation quality over scalar reward models using the Flow-GRPO pipeline on diffusion models.