RationalRewards: Las Recompensas de Razonamiento Escalan la Generación Visual Tanto en el Tiempo de Entrenamiento como en el de Prueba

Resumen

La mayoría de los modelos de recompensa para generación visual reducen los ricos juicios humanos a una única puntuación inexplicable, descartando el razonamiento subyacente a la preferencia. Demostramos que enseñar a los modelos de recompensa a producir críticas explícitas y multidimensionales antes de puntuar los transforma de evaluadores pasivos en herramientas de optimización activa, mejorando los generadores de dos maneras complementarias: en el momento del entrenamiento, las razones estructuradas proporcionan recompensas interpretables y granulares para el aprendizaje por refuerzo; en el momento de la prueba, un bucle Generar-Criticar-Refinar convierte las críticas en revisiones específicas del prompt que mejoran las salidas sin ninguna actualización de parámetros. Para entrenar dicho modelo de recompensa sin costosas anotaciones de razonamiento, introducimos Razonamiento Anclado a la Preferencia (PARROT), un marco teórico que recupera razonamientos de alta calidad a partir de datos de preferencia fácilmente disponibles mediante generación anclada, filtrado de coherencia y destilación. El modelo resultante, RationalRewards (8B), logra una predicción de preferencia de vanguardia entre los modelos de recompensa de código abierto, competitivo con Gemini-2.5-Pro, mientras utiliza entre 10 y 20 veces menos datos de entrenamiento que los modelos base comparables. Como recompensa para aprendizaje por refuerzo, mejora consistentemente a los generadores de texto a imagen y edición de imagen más allá de las alternativas escalares. Lo más notable es que su bucle de crítica y refinamiento en tiempo de prueba iguala o supera al ajuste fino basado en aprendizaje por refuerzo en varios puntos de referencia, lo que sugiere que el razonamiento estructurado puede desbloquear capacidades latentes en los generadores existentes que los prompts subóptimos no logran elicitar.

English

Most reward models for visual generation reduce rich human judgments to a single unexplained score, discarding the reasoning that underlies preference. We show that teaching reward models to produce explicit, multi-dimensional critiques before scoring transforms them from passive evaluators into active optimization tools, improving generators in two complementary ways: at training time, structured rationales provide interpretable, fine-grained rewards for reinforcement learning; at test time, a Generate-Critique-Refine loop turns critiques into targeted prompt revisions that improve outputs without any parameter updates. To train such a reward model without costly rationale annotations, we introduce Preference-Anchored Rationalization (PARROT), a principled framework that recovers high-quality rationales from readily available preference data through anchored generation, consistency filtering, and distillation. The resulting model, RationalRewards (8B), achieves state-of-the-art preference prediction among open-source reward models, competitive with Gemini-2.5-Pro, while using 10-20x less training data than comparable baselines. As an RL reward, it consistently improves text-to-image and image-editing generators beyond scalar alternatives. Most strikingly, its test-time critique-and-refine loop matches or exceeds RL-based fine-tuning on several benchmarks, suggesting that structured reasoning can unlock latent capabilities in existing generators that suboptimal prompts fail to elicit.

RationalRewards: Las Recompensas de Razonamiento Escalan la Generación Visual Tanto en el Tiempo de Entrenamiento como en el de Prueba

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Resumen

Support