RationalRewards : Les récompenses de raisonnement échelonnent la génération visuelle pendant l'entraînement et au moment du test

Résumé

La plupart des modèles de récompense pour la génération visuelle réduisent les jugements humains complexes à un score unique inexpliqué, écartant le raisonnement sous-jacent aux préférences. Nous démontrons qu’apprendre aux modèles de récompense à produire des critiques explicites et multidimensionnelles avant d’attribuer un score les transforme d’évaluateurs passifs en outils d’optimisation actifs, améliorant les générateurs de deux manières complémentaires : pendant l’entraînement, les justifications structurées fournissent des récompenses interprétables et granulaires pour l’apprentissage par renforcement ; lors des tests, une boucle Générer-Critiquer-Raffiner transforme les critiques en révisions ciblées des prompts qui améliorent les résultats sans mise à jour des paramètres. Pour entraîner un tel modèle de récompense sans annotations coûteuses de justifications, nous introduisons la Rationalisation Ancrée sur les Préférences (PARROT), un cadre principermé qui récupère des justifications de haute qualité à partir de données de préférence facilement disponibles via une génération ancrée, un filtrage de cohérence et une distillation. Le modèle résultant, RationalRewards (8B), atteint des performances de pointe en prédiction de préférences parmi les modèles de récompense open-source, rivalisant avec Gemini-2.5-Pro, tout en utilisant 10 à 20 fois moins de données d’entraînement que les modèles de référence comparables. En tant que récompense pour l’apprentissage par renforcement, il améliore constamment les générateurs texte-image et de retouche d’image au-delà des alternatives scalaires. Plus frappant encore, sa boucle de critique et de raffinement lors des tests égale ou dépasse le fine-tuning par apprentissage par renforcement sur plusieurs benchmarks, suggérant que le raisonnement structuré peut libérer des capacités latentes dans les générateurs existants que des prompts sous-optimaux ne parviennent pas à solliciter.

English

Most reward models for visual generation reduce rich human judgments to a single unexplained score, discarding the reasoning that underlies preference. We show that teaching reward models to produce explicit, multi-dimensional critiques before scoring transforms them from passive evaluators into active optimization tools, improving generators in two complementary ways: at training time, structured rationales provide interpretable, fine-grained rewards for reinforcement learning; at test time, a Generate-Critique-Refine loop turns critiques into targeted prompt revisions that improve outputs without any parameter updates. To train such a reward model without costly rationale annotations, we introduce Preference-Anchored Rationalization (PARROT), a principled framework that recovers high-quality rationales from readily available preference data through anchored generation, consistency filtering, and distillation. The resulting model, RationalRewards (8B), achieves state-of-the-art preference prediction among open-source reward models, competitive with Gemini-2.5-Pro, while using 10-20x less training data than comparable baselines. As an RL reward, it consistently improves text-to-image and image-editing generators beyond scalar alternatives. Most strikingly, its test-time critique-and-refine loop matches or exceeds RL-based fine-tuning on several benchmarks, suggesting that structured reasoning can unlock latent capabilities in existing generators that suboptimal prompts fail to elicit.

RationalRewards : Les récompenses de raisonnement échelonnent la génération visuelle pendant l'entraînement et au moment du test

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Résumé

Support