Voorbij scalaire beloningen door internalisering van redeneringen in scoreverdelingen
Beyond Scalar Rewards by Internalizing Reasoning into Score Distributions
June 8, 2026
Auteurs: Xin Jin, Huanqia Cai, Zhen Li, Zechao Zhan, Dengyang Jiang, Aiming Hao, Yuming Jiang, Chunle Guo, Peng Gao, Ming-Ming Cheng, Steven C. H. Hoi
cs.AI
Samenvatting
Beloningsmodellen staan centraal in de nabewerking van tekst-naar-beeld, maar visuele voorkeur is subjectief en kan beter worden weergegeven als een verdeling over rubricscores dan als een deterministische scalar. Bestaande scalaire, scoretoken- en paarsgewijze beloningsmodellen comprimeren onzekerheid en fijnmazige scoreverschillen te veel, terwijl redeneergebaseerde generatieve beloningen sterkere oordelen geven, maar duur zijn om in te zetten en moeilijk te gebruiken als directe optimalisatiesignalen. Wij stellen Z-Reward voor, een teacher-student beloningsmodelleringsraamwerk dat redeneerintensieve oordeelvorming loskoppelt van efficiënte beloningsinzet. De teacher is een groot VLM dat redenering gebruikt om rubric-afgestemde scoreverdelingen af te leiden en wordt getraind met Group-wise Direct Score Optimization (GDSO), dat policy-gradient beloningen uit distributieverwachtingen combineert met directe puntsgewijze en paarsgewijze supervisie op scoreverdelingen en scoreverschillen. De student wordt getraind met Reasoning-Internalized Score Distillation (RISD), dat de redeneerafhankelijke scoreverdeling van de teacher overdraagt naar een compact VLM zonder dat er expliciete redeneerketens nodig zijn bij inferentie. Op onze intern geannoteerde evaluatieset bereikt de 27B GDSO teacher een nauwkeurigheid van 89,6% in menselijke voorkeur en presteert daarmee beter dan SFT, RewardDance en GRPO, terwijl de 9B RISD student 88,6% bereikt, beter dan de OPD-baseline en dicht bij de grotere teacher. We laten verder zien dat Z-Reward kan dienen als een differentieerbaar beloningssignaal voor tekst-naar-beeld optimalisatie, wat een netto verbetering van 41,3% in menselijke voorkeur oplevert ten opzichte van de SFT-baseline.
English
Reward models are central to text-to-image post-training, but visual preference is subjective and better represented as a distribution over rubric scores than as a deterministic scalar. Existing scalar, score-token, and pairwise reward models over-compress uncertainty and fine-grained score differences, while reasoning-based generative rewards provide stronger judgments but are costly to deploy and difficult to use as direct optimization signals. We propose Z-Reward, a teacher-student reward modeling framework that decouples reasoning-heavy judgment from efficient reward deployment. The teacher is a large VLM that uses reasoning to infer rubric-aligned score distributions, and is trained with Group-wise Direct Score Optimization (GDSO), which combines policy-gradient rewards from distribution expectations with direct pointwise and pairwise supervision on score distributions and score gaps. The student is trained with Reasoning-Internalized Score Distillation (RISD), which transfers the teacher's reasoning-conditioned score distribution into a compact VLM without requiring explicit reasoning chains at inference time. On our internally annotated evaluation set, the 27B GDSO teacher reaches 89.6% human preference accuracy, outperforming SFT, RewardDance, and GRPO, while the 9B RISD student reaches 88.6%, outperforming the OPD baseline and closely matching the larger teacher. We further show that Z-Reward can serve as a differentiable reward signal for text-to-image optimization, yielding a 41.3% net human-preference improvement over the SFT baseline.