AutoRubric-T2I: Robuust regelgebaseerd beloningsmodel voor tekst-naar-beeld afstemming

Samenvatting

Het afstemmen van tekst-naar-beeld (T2I) generatiemodellen op menselijke voorkeuren is steeds vaker afhankelijk van beeldbeloningsmodellen die gegenereerde afbeeldingen beoordelen of rangschikken op basis van promptafstemming en perceptuele kwaliteit. Bestaande beloningsmodellen worden doorgaans getraind als Bradley-Terry (BT) preferentiemodellen op grootschalige menselijke voorkeurscorpora, wat ze duur maakt om te trainen, moeilijk aanpasbaar en ondoorzichtig in hun evaluatiecriteria. Ondertussen kunnen Visie-Taal Model (VTM) beoordelaars meer gedetailleerde beoordelingen geven via tekstuele beoordelingsrichtlijnen, maar hun handmatig ontworpen of heuristisch gegenereerde scoreringsregels kunnen er niet altijd in slagen om menselijke voorkeuren betrouwbaar weer te geven. In dit artikel stellen we AutoRubric-T2I voor, het eerste leerkader voor beoordelingsrichtlijnen in T2I dat automatisch expliciete richtlijnen synthetiseert en selecteert voor het begeleiden van VTM-beoordelaars. AutoRubric-T2I synthetiseert eerst redeneersporen uit preferentieparen tot kandidaat-richtlijnen, gebruikt vervolgens een VTM-beoordelaar om gepaarde afbeeldingen onder elke richtlijn te scoren, wat leidt tot gepaarde richtlijn-scoreverschillen voor preferentieleren. Om ruis en redundantie te verwijderen, passen we verder een L1-geregulariseerde logistische regressie-verfijner toe, die de Top-N meest onderscheidende richtlijnen selecteert. Uitgebreide evaluaties tonen aan dat AutoRubric-T2I hoogwaardige, interpreteerbare beloningssignalen produceert met minder dan 0,01% van de geannoteerde preferentiegegevens, waardoor de behoefte aan grootschalige training van beloningsmodellen aanzienlijk afneemt. Op beeldbeloningsbenchmarks zoals MMRB2 overtreft AutoRubric-T2I sterke baselines van beloningsmodellen. We valideren AutoRubric-T2I verder als een RL-beloning bij downstream T2I-taken, waaronder TIIF en UniGenBench++, waar het de generatiekwaliteit verbetert ten opzichte van scalaire beloningsmodellen met behulp van de Flow-GRPO-pijplijn op diffusiemodellen.

English

Aligning Text-to-Image (T2I) generation models with human preferences increasingly relies on image reward models that score or rank generated images according to prompt alignment and perceptual quality. Existing reward models are commonly trained as Bradley-Terry (BT) preference models on large-scale human preference corpora, making them costly to train, difficult to adapt, and opaque in their evaluation criteria. Meanwhile, Vision-Language Model (VLM) judges can provide more fine-grained assessments through textual rubrics, but their manually designed or heuristically generated scoring rules may fail to reliably reflect human preferences. In this paper, we propose AutoRubric-T2I, the first rubric learning framework in T2I that automatically synthesizes and selects explicit rubrics for guiding VLM judges. AutoRubric-T2I first synthesizes reasoning traces from preference pairs into candidate rubrics, then uses a VLM judge to score paired images under each rubric, producing pairwise rubric-score differences for preference learning. To remove noisy and redundant rules, we further employ a ell_1-Regularized Logistic Regression Refiner, which selects the Top-N most discriminative rubrics. Extensive evaluations show that AutoRubric-T2I produces high-quality, interpretable reward signals using less than 0.01% of the annotated preference data, substantially reducing the need for large-scale reward-model training. On image reward benchmarks such as MMRB2, AutoRubric-T2I outperforms strong reward model baselines. We further validate AutoRubric-T2I as an RL reward on downstream T2I tasks, including TIIF and UniGenBench++, where it improves generation quality over scalar reward models using the Flow-GRPO pipeline on diffusion models.