За пределами скалярных наград: интернализация рассуждений в распределения оценок

Аннотация

Модели вознаграждения играют ключевую роль в пост-тренировке моделей генерации изображений по текстовому описанию, однако визуальные предпочтения субъективны, и их лучше представлять в виде распределения по рубричным оценкам, а не в виде детерминированного скаляра. Существующие скалярные, токеновые и парные модели вознаграждения избыточно сжимают неопределенность и тонкие различия в оценках, в то время как основанные на рассуждениях генеративные вознаграждения обеспечивают более сильные суждения, но дороги в развертывании и сложны в использовании в качестве прямых оптимизационных сигналов. Мы предлагаем Z-Reward — фреймворк моделирования вознаграждения в парадигме «учитель-ученик», который разделяет требующие интенсивных рассуждений суждения и эффективное развертывание вознаграждения. Учитель представляет собой большую VLM, использующую рассуждения для вывода распределения оценок, согласованных с рубриками, и обучается с помощью групповой прямой оптимизации оценок (Group-wise Direct Score Optimization, GDSO), которая сочетает градиенты вознаграждения от ожиданий распределения с прямой точечной и парной супервизией по распределениям оценок и разрывам в оценках. Ученик обучается с помощью дистилляции оценок с интернализованными рассуждениями (Reasoning-Internalized Score Distillation, RISD), которая переносит обусловленное рассуждениями распределение оценок от учителя в компактную VLM без необходимости в явных цепочках рассуждений на этапе инференса. На нашем внутреннем аннотированном оценочном наборе учитель GDSO размером 27B достигает 89,6% точности по человеческим предпочтениям, превосходя SFT, RewardDance и GRPO, в то время как ученик RISD размером 9B достигает 88,6%, превосходя базовую линию OPD и почти не уступая более крупному учителю. Мы также показываем, что Z-Reward может служить дифференцируемым сигналом вознаграждения для оптимизации генерации изображений по тексту, обеспечивая чистое улучшение человеческих предпочтений на 41,3% по сравнению с базовой линией SFT.

English

Reward models are central to text-to-image post-training, but visual preference is subjective and better represented as a distribution over rubric scores than as a deterministic scalar. Existing scalar, score-token, and pairwise reward models over-compress uncertainty and fine-grained score differences, while reasoning-based generative rewards provide stronger judgments but are costly to deploy and difficult to use as direct optimization signals. We propose Z-Reward, a teacher-student reward modeling framework that decouples reasoning-heavy judgment from efficient reward deployment. The teacher is a large VLM that uses reasoning to infer rubric-aligned score distributions, and is trained with Group-wise Direct Score Optimization (GDSO), which combines policy-gradient rewards from distribution expectations with direct pointwise and pairwise supervision on score distributions and score gaps. The student is trained with Reasoning-Internalized Score Distillation (RISD), which transfers the teacher's reasoning-conditioned score distribution into a compact VLM without requiring explicit reasoning chains at inference time. On our internally annotated evaluation set, the 27B GDSO teacher reaches 89.6% human preference accuracy, outperforming SFT, RewardDance, and GRPO, while the 9B RISD student reaches 88.6%, outperforming the OPD baseline and closely matching the larger teacher. We further show that Z-Reward can serve as a differentiable reward signal for text-to-image optimization, yielding a 41.3% net human-preference improvement over the SFT baseline.