Au-delà des récompenses scalaires en internalisant le raisonnement dans les distributions de scores

Résumé

Les modèles de récompense sont au cœur du post-entraînement en texte-à-image, mais la préférence visuelle est subjective et se représente mieux comme une distribution sur des scores de grille que comme un scalaire déterministe. Les modèles de récompense existants — scalaires, basés sur des tokens de score, ou par paires — compressent excessivement l'incertitude et les différences fines entre scores, tandis que les récompenses génératives fondées sur le raisonnement fournissent des jugements plus robustes mais sont coûteuses à déployer et difficiles à utiliser comme signaux d'optimisation directs. Nous proposons Z-Reward, un cadre de modélisation des récompenses de type enseignant-étudiant qui dissocie le jugement lourd en raisonnement du déploiement efficace de la récompense. L'enseignant est un grand VLM qui utilise le raisonnement pour inférer des distributions de scores alignées sur une grille, et est entraîné via l'Optimisation Directe des Scores par Groupes (GDSO), qui combine des récompenses issues de gradients de politique à partir d'espérances de distributions avec une supervision directe ponctuelle et par paires sur les distributions de scores et les écarts de scores. L'étudiant est entraîné via la Distillation de Scores Internalisée par le Raisonnement (RISD), qui transfère la distribution de scores conditionnée par le raisonnement de l'enseignant vers un VLM compact sans nécessiter de chaînes de raisonnement explicites au moment de l'inférence. Sur notre ensemble d'évaluation annoté en interne, l'enseignant GDSO de 27B atteint une précision de préférence humaine de 89,6 %, surpassant SFT, RewardDance et GRPO, tandis que l'étudiant RISD de 9B atteint 88,6 %, surpassant la référence OPD et s'approchant étroitement de l'enseignant plus grand. Nous montrons en outre que Z-Reward peut servir de signal de récompense différentiable pour l'optimisation en texte-à-image, produisant une amélioration nette de la préférence humaine de 41,3 % par rapport à la référence SFT.

English

Reward models are central to text-to-image post-training, but visual preference is subjective and better represented as a distribution over rubric scores than as a deterministic scalar. Existing scalar, score-token, and pairwise reward models over-compress uncertainty and fine-grained score differences, while reasoning-based generative rewards provide stronger judgments but are costly to deploy and difficult to use as direct optimization signals. We propose Z-Reward, a teacher-student reward modeling framework that decouples reasoning-heavy judgment from efficient reward deployment. The teacher is a large VLM that uses reasoning to infer rubric-aligned score distributions, and is trained with Group-wise Direct Score Optimization (GDSO), which combines policy-gradient rewards from distribution expectations with direct pointwise and pairwise supervision on score distributions and score gaps. The student is trained with Reasoning-Internalized Score Distillation (RISD), which transfers the teacher's reasoning-conditioned score distribution into a compact VLM without requiring explicit reasoning chains at inference time. On our internally annotated evaluation set, the 27B GDSO teacher reaches 89.6% human preference accuracy, outperforming SFT, RewardDance, and GRPO, while the 9B RISD student reaches 88.6%, outperforming the OPD baseline and closely matching the larger teacher. We further show that Z-Reward can serve as a differentiable reward signal for text-to-image optimization, yielding a 41.3% net human-preference improvement over the SFT baseline.