**RationalRewards: Recompensas Racionais que Escalonam a Geração Visual Tanto no Treinamento quanto no Tempo de Teste**

Resumo

A maioria dos modelos de recompensa para geração visual reduz ricos julgamentos humanos a uma única pontuação inexplicável, descartando o raciocínio subjacente à preferência. Mostramos que ensinar modelos de recompensa a produzir críticas explícitas e multidimensionais antes da pontuação os transforma de avaliadores passivos em ferramentas de otimização ativa, melhorando os geradores de duas formas complementares: no momento do treinamento, as racionalizações estruturadas fornecem recompensas interpretáveis e granulares para o aprendizado por reforço; no momento do teste, um ciclo Gerar-Criticar-Refinar transforma as críticas em revisões direcionadas do *prompt* que melhoram as saídas sem qualquer atualização de parâmetros. Para treinar tal modelo de recompensa sem as dispendiosas anotações de racionalização, introduzimos a Racionalização Ancorada por Preferência (PARROT), uma estrutura principista que recupera racionalizações de alta qualidade a partir de dados de preferência prontamente disponíveis por meio de geração ancorada, filtragem de consistência e destilação. O modelo resultante, RationalRewards (8B), alcança a previsão de preferência state-of-the-art entre modelos de recompensa de código aberto, competitivo com o Gemini-2.5-Pro, enquanto usa 10 a 20 vezes menos dados de treinamento do que bases de comparação equivalentes. Como recompensa para RL, ele melhora consistentemente geradores de texto-para-imagem e edição de imagem além das alternativas escalares. Mais notavelmente, seu ciclo de crítica e refinamento em tempo de teste iguala ou excede o ajuste fino baseado em RL em vários benchmarks, sugerindo que o raciocínio estruturado pode desbloquear capacidades latentes em geradores existentes que *prompts* subótimos não conseguem eliciar.

English

Most reward models for visual generation reduce rich human judgments to a single unexplained score, discarding the reasoning that underlies preference. We show that teaching reward models to produce explicit, multi-dimensional critiques before scoring transforms them from passive evaluators into active optimization tools, improving generators in two complementary ways: at training time, structured rationales provide interpretable, fine-grained rewards for reinforcement learning; at test time, a Generate-Critique-Refine loop turns critiques into targeted prompt revisions that improve outputs without any parameter updates. To train such a reward model without costly rationale annotations, we introduce Preference-Anchored Rationalization (PARROT), a principled framework that recovers high-quality rationales from readily available preference data through anchored generation, consistency filtering, and distillation. The resulting model, RationalRewards (8B), achieves state-of-the-art preference prediction among open-source reward models, competitive with Gemini-2.5-Pro, while using 10-20x less training data than comparable baselines. As an RL reward, it consistently improves text-to-image and image-editing generators beyond scalar alternatives. Most strikingly, its test-time critique-and-refine loop matches or exceeds RL-based fine-tuning on several benchmarks, suggesting that structured reasoning can unlock latent capabilities in existing generators that suboptimal prompts fail to elicit.

RationalRewards: Recompensas Racionais que Escalonam a Geração Visual Tanto no Treinamento quanto no Tempo de Teste

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Resumo

Support