Além das Recompensas Escalares ao Internalizar o Raciocínio em Distribuições de Pontuação

Resumo

Os modelos de recompensa são centrais no pós-treinamento de texto para imagem, mas a preferência visual é subjetiva e melhor representada como uma distribuição sobre pontuações de rubrica do que como um escalar determinístico. Modelos de recompensa existentes baseados em escalares, tokens de pontuação e pares comprimem excessivamente a incerteza e diferenças sutis de pontuação, enquanto recompensas gerativas baseadas em raciocínio fornecem julgamentos mais robustos, porém são caras de implementar e difíceis de usar como sinais diretos de otimização. Propomos o Z-Reward, um框架 de modelagem de recompensa professor-aluno que desacopla o julgamento pesado em raciocínio da implantação eficiente da recompensa. O professor é um grande VLM que utiliza raciocínio para inferir distribuições de pontuação alinhadas à rubrica e é treinado com Otimização Direta de Pontuação em Grupo (GDSO), que combina recompensas de gradiente de política a partir de expectativas de distribuição com supervisão direta pontual e pareada sobre distribuições de pontuação e lacunas de pontuação. O aluno é treinado com Destilação de Pontuação Internalizada por Raciocínio (RISD), que transfere a distribuição de pontuação condicionada ao raciocínio do professor para um VLM compacto, sem exigir cadeias de raciocínio explícitas no momento da inferência. Em nosso conjunto de avaliação anotado internamente, o professor GDSO de 27B atinge 89,6% de precisão de preferência humana, superando SFT, RewardDance e GRPO, enquanto o aluno RISD de 9B atinge 88,6%, superando a linha de base OPD e aproximando-se do professor maior. Adicionalmente, mostramos que o Z-Reward pode servir como um sinal de recompensa diferenciável para otimização texto-imagem, resultando em uma melhoria líquida de 41,3% na preferência humana em relação à linha de base SFT.

English

Reward models are central to text-to-image post-training, but visual preference is subjective and better represented as a distribution over rubric scores than as a deterministic scalar. Existing scalar, score-token, and pairwise reward models over-compress uncertainty and fine-grained score differences, while reasoning-based generative rewards provide stronger judgments but are costly to deploy and difficult to use as direct optimization signals. We propose Z-Reward, a teacher-student reward modeling framework that decouples reasoning-heavy judgment from efficient reward deployment. The teacher is a large VLM that uses reasoning to infer rubric-aligned score distributions, and is trained with Group-wise Direct Score Optimization (GDSO), which combines policy-gradient rewards from distribution expectations with direct pointwise and pairwise supervision on score distributions and score gaps. The student is trained with Reasoning-Internalized Score Distillation (RISD), which transfers the teacher's reasoning-conditioned score distribution into a compact VLM without requiring explicit reasoning chains at inference time. On our internally annotated evaluation set, the 27B GDSO teacher reaches 89.6% human preference accuracy, outperforming SFT, RewardDance, and GRPO, while the 9B RISD student reaches 88.6%, outperforming the OPD baseline and closely matching the larger teacher. We further show that Z-Reward can serve as a differentiable reward signal for text-to-image optimization, yielding a 41.3% net human-preference improvement over the SFT baseline.