Más allá de las recompensas escalares mediante la internalización del razonamiento en distribuciones de puntuaciones

Resumen

Los modelos de recompensa son fundamentales para el post-entrenamiento de texto a imagen, pero la preferencia visual es subjetiva y se representa mejor como una distribución sobre puntuaciones en rúbrica que como un escalar determinista. Los modelos de recompensa existentes —escalares, de tokens de puntuación y por pares— comprimen en exceso la incertidumbre y las diferencias de puntuación finas, mientras que las recompensas generativas basadas en razonamiento proporcionan juicios más robustos, pero resultan costosas de implementar y difíciles de utilizar como señales de optimización directas. Proponemos Z-Reward, un marco de modelado de recompensas profesor-alumno que separa el juicio intensivo en razonamiento del despliegue eficiente de la recompensa. El profesor es un VLM grande que utiliza razonamiento para inferir distribuciones de puntuación alineadas con la rúbrica, y se entrena con Optimización Directa de Puntuación por Grupos (GDSO), la cual combina recompensas de gradiente de política provenientes de expectativas de distribución con supervisión puntual y por pares directa sobre distribuciones de puntuación y brechas de puntuación. El alumno se entrena con Destilación de Puntuación Internalizada en Razonamiento (RISD), que transfiere la distribución de puntuación condicionada por razonamiento del profesor a un VLM compacto sin requerir cadenas de razonamiento explícitas en el momento de la inferencia. En nuestro conjunto de evaluación anotado internamente, el profesor GDSO de 27B alcanza un 89,6% de precisión en preferencia humana, superando a SFT, RewardDance y GRPO, mientras que el alumno RISD de 9B alcanza un 88,6%, superando la línea base OPD y aproximándose estrechamente al profesor de mayor tamaño. Además, demostramos que Z-Reward puede servir como señal de recompensa diferenciable para la optimización de texto a imagen, logrando una mejora neta del 41,3% en preferencia humana respecto a la línea base SFT.

English

Reward models are central to text-to-image post-training, but visual preference is subjective and better represented as a distribution over rubric scores than as a deterministic scalar. Existing scalar, score-token, and pairwise reward models over-compress uncertainty and fine-grained score differences, while reasoning-based generative rewards provide stronger judgments but are costly to deploy and difficult to use as direct optimization signals. We propose Z-Reward, a teacher-student reward modeling framework that decouples reasoning-heavy judgment from efficient reward deployment. The teacher is a large VLM that uses reasoning to infer rubric-aligned score distributions, and is trained with Group-wise Direct Score Optimization (GDSO), which combines policy-gradient rewards from distribution expectations with direct pointwise and pairwise supervision on score distributions and score gaps. The student is trained with Reasoning-Internalized Score Distillation (RISD), which transfers the teacher's reasoning-conditioned score distribution into a compact VLM without requiring explicit reasoning chains at inference time. On our internally annotated evaluation set, the 27B GDSO teacher reaches 89.6% human preference accuracy, outperforming SFT, RewardDance, and GRPO, while the 9B RISD student reaches 88.6%, outperforming the OPD baseline and closely matching the larger teacher. We further show that Z-Reward can serve as a differentiable reward signal for text-to-image optimization, yielding a 41.3% net human-preference improvement over the SFT baseline.