RationalRewards: Redeneerbeloningen Schalen Visuele Generatie Tijdens Training en Testtijd

Samenvatting

De meeste beloningsmodellen voor visuele generatie reduceren rijke menselijke oordelen tot een enkele onverklaarde score, waarbij de redenering die ten grondslag ligt aan de voorkeur wordt weggegooid. Wij tonen aan dat het aanleren van beloningsmodellen om expliciete, multidimensionale kritieken te produceren alvorens te scoren, ze transformeert van passieve beoordelaars naar actieve optimalisatie-instrumenten, wat generatoren op twee complementaire manieren verbetert: tijdens de training bieden gestructureerde rechtvaardigingen interpreteerbare, fijnmazige beloningen voor reinforcement learning; tijdens de testfase verandert een Generate-Critique-Refine-lus kritieken in gerichte promptrevisies die outputs verbeteren zonder parameterupdates. Om zo'n beloningsmodel te trainen zonder kostbare rechtvaardigingsannotaties, introduceren wij Preference-Anchored Rationalization (PARROT), een principieel raamwerk dat hoogwaardige rechtvaardigingen terugwint uit direct beschikbare voorkeursdata via verankerde generatie, consistentiefiltering en distillatie. Het resulterende model, RationalRewards (8B), behaalt state-of-the-art voorkeursvoorspelling onder open-source beloningsmodellen, vergelijkbaar met Gemini-2.5-Pro, terwijl het 10-20x minder trainingsdata gebruikt dan vergelijkbare baseline-modellen. Als RL-beloning verbetert het consistent tekst-naar-beeld- en beeldbewerkingsgeneratoren voorbij scalaire alternatieven. Het meest opvallend is dat zijn testtijd-kritiek-en-verfijn-lus evenaart of overtreft op RL gebaseerde fine-tuning op verschillende benchmarks, wat suggereert dat gestructureerd redeneren latente capaciteiten in bestaande generatoren kan ontsluiten die suboptimale prompts niet weten op te roepen.

English

Most reward models for visual generation reduce rich human judgments to a single unexplained score, discarding the reasoning that underlies preference. We show that teaching reward models to produce explicit, multi-dimensional critiques before scoring transforms them from passive evaluators into active optimization tools, improving generators in two complementary ways: at training time, structured rationales provide interpretable, fine-grained rewards for reinforcement learning; at test time, a Generate-Critique-Refine loop turns critiques into targeted prompt revisions that improve outputs without any parameter updates. To train such a reward model without costly rationale annotations, we introduce Preference-Anchored Rationalization (PARROT), a principled framework that recovers high-quality rationales from readily available preference data through anchored generation, consistency filtering, and distillation. The resulting model, RationalRewards (8B), achieves state-of-the-art preference prediction among open-source reward models, competitive with Gemini-2.5-Pro, while using 10-20x less training data than comparable baselines. As an RL reward, it consistently improves text-to-image and image-editing generators beyond scalar alternatives. Most strikingly, its test-time critique-and-refine loop matches or exceeds RL-based fine-tuning on several benchmarks, suggesting that structured reasoning can unlock latent capabilities in existing generators that suboptimal prompts fail to elicit.

RationalRewards: Redeneerbeloningen Schalen Visuele Generatie Tijdens Training en Testtijd

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Samenvatting

Support