RationalRewards: Reasoning-Belohnungen skalieren die visuelle Generierung sowohl während des Trainings als auch zur Testzeit

Zusammenfassung

Die meisten Belohnungsmodelle für die Bildgenerierung reduzieren reichhaltige menschliche Bewertungen auf einen einzelnen, unerklärten Score und verwerfen dabei die zugrundeliegende Präferenzbegründung. Wir zeigen, dass Belohnungsmodelle, die dazu angeleitet werden, explizite, multidimensionale Kritiken vor der Bewertung zu produzieren, sich von passiven Bewertern in aktive Optimierungswerkzeuge verwandeln und Generatoren auf zwei komplementäre Weisen verbessern: Zur Trainingszeit liefern strukturierte Begründungen interpretierbare, feingranulare Belohnungen für bestärkendes Lernen; zur Testzeit verwandelt eine Generate-Critique-Refine-Schleife Kritiken in gezielte Prompt-Revisionen, die Ergebnisse ohne Parameteraktualisierungen verbessern. Um ein solches Belohnungsmodell ohne kostspielige Annotierung von Begründungen zu trainieren, führen wir Preference-Anchored Rationalization (PARROT) ein, einen prinzipienbasierten Rahmen, der hochwertige Begründungen aus leicht verfügbaren Präferenzdaten durch verankerte Generierung, Konsistenzfilterung und Distillation gewinnt. Das resultierende Modell, RationalRewards (8B), erreicht state-of-the-art Präferenzvorhersage unter Open-Source-Belohnungsmodellen, vergleichbar mit Gemini-2.5-Pro, während es 10-20 mal weniger Trainingsdaten als vergleichbare Baseline-Modelle verwendet. Als RL-Belohnung verbessert es konsistent Text-zu-Bild- und Bildbearbeitungs-Generatoren über skalare Alternativen hinaus. Am bemerkenswertesten ist, dass seine Testzeit-Kritik-und-Verbesserungs-Schleife auf mehreren Benchmarks RL-basiertes Fine-Tuning übertrifft oder gleichauf liegt, was nahelegt, dass strukturiertes Reasoning latente Fähigkeiten in bestehenden Generatoren freisetzen kann, die suboptimale Prompts nicht zu aktivieren vermögen.

English

Most reward models for visual generation reduce rich human judgments to a single unexplained score, discarding the reasoning that underlies preference. We show that teaching reward models to produce explicit, multi-dimensional critiques before scoring transforms them from passive evaluators into active optimization tools, improving generators in two complementary ways: at training time, structured rationales provide interpretable, fine-grained rewards for reinforcement learning; at test time, a Generate-Critique-Refine loop turns critiques into targeted prompt revisions that improve outputs without any parameter updates. To train such a reward model without costly rationale annotations, we introduce Preference-Anchored Rationalization (PARROT), a principled framework that recovers high-quality rationales from readily available preference data through anchored generation, consistency filtering, and distillation. The resulting model, RationalRewards (8B), achieves state-of-the-art preference prediction among open-source reward models, competitive with Gemini-2.5-Pro, while using 10-20x less training data than comparable baselines. As an RL reward, it consistently improves text-to-image and image-editing generators beyond scalar alternatives. Most strikingly, its test-time critique-and-refine loop matches or exceeds RL-based fine-tuning on several benchmarks, suggesting that structured reasoning can unlock latent capabilities in existing generators that suboptimal prompts fail to elicit.

RationalRewards: Reasoning-Belohnungen skalieren die visuelle Generierung sowohl während des Trainings als auch zur Testzeit

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Zusammenfassung

Support