RationalRewards: I Premi del Ragionamento Scalano la Generazione Visiva Sia in Fase di Addestramento che di Test

Abstract

La maggior parte dei modelli di ricompensa per la generazione visiva riduce i ricchi giudizi umani a un singolo punteggio non spiegato, scartando il ragionamento alla base della preferenza. Dimostriamo che insegnare ai modelli di ricompensa a produrre critiche esplicite e multidimensionali prima di assegnare un punteggio li trasforma da valutatori passivi in strumenti di ottimizzazione attiva, migliorando i generatori in due modi complementari: durante l'addestramento, le razionalità strutturate forniscono ricompense interpretabili e granulari per l'apprendimento per rinforzo; durante il test, un ciclo Genera-Critica-Affina trasforma le critiche in revisioni mirate dei prompt che migliorano gli output senza alcun aggiornamento dei parametri. Per addestrare un tale modello di ricompensa senza costose annotazioni di razionalità, introduciamo il Razionalismo ancorato alle preferenze (PARROT), un framework principiato che recupera razionalità di alta qualità dai dati di preferenza facilmente disponibili attraverso la generazione ancorata, il filtraggio per coerenza e la distillazione. Il modello risultante, RationalRewards (8B), raggiunge prestazioni all'avanguardia nella predizione delle preferenze tra i modelli di ricompensa open-source, competitivo con Gemini-2.5-Pro, pur utilizzando da 10 a 20 volte meno dati di addestramento rispetto ai baseline comparabili. Come ricompensa per l'RL, migliora costantemente i generatori testo-immagine e di editing di immagini oltre le alternative scalari. Ancora più notevolmente, il suo ciclo di critica e affinamento a tempo di test eguaglia o supera la fine-tuning basata su RL su diversi benchmark, suggerendo che il ragionamento strutturato possa sbloccare capacità latenti nei generatori esistenti che prompt subottimali non riescono a elicitare.

English

Most reward models for visual generation reduce rich human judgments to a single unexplained score, discarding the reasoning that underlies preference. We show that teaching reward models to produce explicit, multi-dimensional critiques before scoring transforms them from passive evaluators into active optimization tools, improving generators in two complementary ways: at training time, structured rationales provide interpretable, fine-grained rewards for reinforcement learning; at test time, a Generate-Critique-Refine loop turns critiques into targeted prompt revisions that improve outputs without any parameter updates. To train such a reward model without costly rationale annotations, we introduce Preference-Anchored Rationalization (PARROT), a principled framework that recovers high-quality rationales from readily available preference data through anchored generation, consistency filtering, and distillation. The resulting model, RationalRewards (8B), achieves state-of-the-art preference prediction among open-source reward models, competitive with Gemini-2.5-Pro, while using 10-20x less training data than comparable baselines. As an RL reward, it consistently improves text-to-image and image-editing generators beyond scalar alternatives. Most strikingly, its test-time critique-and-refine loop matches or exceeds RL-based fine-tuning on several benchmarks, suggesting that structured reasoning can unlock latent capabilities in existing generators that suboptimal prompts fail to elicit.

RationalRewards: I Premi del Ragionamento Scalano la Generazione Visiva Sia in Fase di Addestramento che di Test

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Abstract

Support