ChatPaper.aiChatPaper

Думай, затем оценивай: Раздельные рассуждение и оценка для моделирования видеовознаграждений

Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling

May 7, 2026
Авторы: Yuan Wang, Ouxiang Li, Yulong Xu, Borui Liao, Jiajun Liang, Jinghan Li, Meng Wang, Xintao Wang, Pengfei Wang, Kuien Liu, Xiang Wang
cs.AI

Аннотация

Последние достижения в области генеративных видео моделей все больше определяются масштабированием после обучения и на этапе тестирования, что критически зависит от качества моделей вознаграждения (reward models, RM). Идеальная модель вознаграждения должна предсказывать точные оценки, соответствующие человеческим предпочтениям в различных сценариях. Однако существующие парадигмы сталкиваются с фундаментальной дилеммой: Дискриминативные RM регрессируют вознаграждения непосредственно на признаках, извлеченных мультимодальными большими языковыми моделями (МБЯМ), без явного рассуждения, что делает их склонными к обучению с использованием ярлыков и сильно зависимыми от масштабирования огромных объемов данных для обобщения. В отличие от них, Генеративные RM с логическими цепочками (Chain-of-Thought, CoT) демонстрируют превосходную интерпретируемость и потенциал к обобщению, поскольку используют мелкозернистый семантический контроль для усвоения обоснований, стоящих за человеческими предпочтениями. Однако они страдают от присущих им узких мест в оптимизации из-за сопряжения рассуждений и оценки в рамках единой авторегрессионной цепи вывода. Чтобы использовать преимущества обобщения CoT-рассуждений, одновременно mitigating нестабильность обучения, вызванную сопряженным рассуждением и оценкой, мы представляем DeScore — эффективную при обучении и хорошо обобщаемую видео модель вознаграждения. DeScore использует разъединенную парадигму «сначала подумай, затем оцени»: сначала МБЯМ генерирует явную CoT, за которой следует специализированный дискриминативный модуль оценки, состоящий из обучаемого токена запроса и регрессионной головы, предсказывающей итоговое вознаграждение. DeScore оптимизируется с помощью двухэтапной структуры: (1) дискриминативная «холодная» инициализация с включением механизма случайного маскирования для обеспечения надежных способностей к оценке и (2) этап обучения с подкреплением с двойной целью, который независимо улучшает качество CoT-рассуждений и калибрует итоговое вознаграждение, гарантируя, что более качественные рассуждения напрямую преобразуются в превосходную производительность модели.
English
Recent advances in generative video models are increasingly driven by post-training and test-time scaling, both of which critically depend on the quality of video reward models (RMs). An ideal reward model should predict accurate rewards that align with human preferences across diverse scenarios. However, existing paradigms face a fundamental dilemma: Discriminative RMs regress rewards directly on features extracted by multimodal large language models (MLLMs) without explicit reasoning, making them prone to shortcut learning and heavily reliant on massive data scaling for generalization. In contrast, Generative RMs with Chain-of-Thought (CoT) reasoning exhibit superior interpretability and generalization potential, as they leverage fine-grained semantic supervision to internalize the rationales behind human preferences. However, they suffer from inherent optimization bottlenecks due to the coupling of reasoning and scoring within a single autoregressive inference chain. To harness the generalization benefits of CoT reasoning while mitigating the training instability of coupled reasoning and scoring, we introduce DeScore, a training-efficient and generalizable video reward model. DeScore employs a decoupled ``think-then-score'' paradigm: an MLLM first generates an explicit CoT, followed by a dedicated discriminative scoring module consisting of a learnable query token and a regression head that predicts the final reward. DeScore is optimized via a two-stage framework: (1) a discriminative cold start incorporating a random mask mechanism to ensure robust scoring capabilities, and (2) a dual-objective reinforcement learning stage that independently refines CoT reasoning quality and calibrates the final reward, ensuring that higher-quality reasoning directly translates to superior model performance.
PDF11May 9, 2026