ChatPaper.aiChatPaper

VR-Thinker: Улучшение моделей видеовознаграждений через рассуждения с использованием изображений

VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

October 12, 2025
Авторы: Qunzhong Wang, Jie Liu, Jiajun Liang, Yilei Jiang, Yuanxing Zhang, Jinyuan Chen, Yaozhi Zheng, Xintao Wang, Pengfei Wan, Xiangyu Yue, Jiaheng Liu
cs.AI

Аннотация

Последние достижения в области многомодальных моделей вознаграждения (RMs) значительно улучшили пост-обучение визуальных генеративных моделей. Однако современные RMs сталкиваются с присущими им ограничениями: (1) визуальные входные данные потребляют большой объем контекста, что вынуждает использовать меньше кадров и приводит к потере деталей; (2) вся визуальная информация упаковывается в начальный промт, что усугубляет галлюцинации и забывание в процессе цепочки рассуждений. Чтобы преодолеть эти проблемы, мы представляем VideoReward Thinker (VR-Thinker) — фреймворк "мышления с изображением", который оснащает RM операциями визуального рассуждения (например, выбор кадра) и настраиваемым окном визуальной памяти. Это позволяет RM активно получать и обновлять визуальные доказательства в пределах контекста, повышая точность и надежность рассуждений. Мы активируем визуальное рассуждение с помощью конвейера тонкой настройки с подкреплением: (i) "Холодный старт" с курированными данными визуальной цепочки рассуждений для усвоения базовых навыков рассуждения и форматирования операций; (ii) выбор образцов, в которых все суждения по каждому измерению и общие суждения верны, с последующей тонкой настройкой методом отбора по отклонению на этих высококачественных траекториях для дальнейшего улучшения рассуждений; (iii) применение групповой относительной оптимизации политики (GRPO) для усиления рассуждений. Наш подход демонстрирует наивысшую точность среди моделей с открытым исходным кодом на бенчмарках предпочтений видео, особенно для длинных видео: 7B VR-Thinker достигает 80,5% на VideoGen Reward, 82,3% на GenAI-Bench и 75,6% на MJ-Bench-Video. Эти результаты подтверждают эффективность и перспективность многомодального моделирования вознаграждения с использованием "мышления с изображением".
English
Recent advancements in multimodal reward models (RMs) have substantially improved post-training for visual generative models. However, current RMs face inherent limitations: (1) visual inputs consume large context budgets, forcing fewer frames and causing loss of fine-grained details; and (2) all visual information is packed into the initial prompt, exacerbating hallucination and forgetting during chain-of-thought reasoning. To overcome these issues, we introduce VideoReward Thinker (VR-Thinker), a thinking-with-image framework that equips the RM with visual reasoning operations (e.g., select frame) and a configurable visual memory window. This allows the RM to actively acquire and update visual evidence within context limits, improving reasoning fidelity and reliability. We activate visual reasoning via a reinforcement fine-tuning pipeline: (i) Cold Start with curated visual chain-of-thought data to distill basic reasoning skills and operation formatting; (ii) select samples whose per-dimension and overall judgments are all correct, then conduct Rejection sampling Fine-Tuning on these high-quality traces to further enhance reasoning; and (iii) apply Group Relative Policy Optimization (GRPO) to strengthen reasoning. Our approach delivers state-of-the-art accuracy among open-source models on video preference benchmarks, especially for longer videos: a 7B VR-Thinker achieves 80.5% on VideoGen Reward, 82.3% on GenAI-Bench, and 75.6% on MJ-Bench-Video. These results validate the effectiveness and promise of thinking-with-image multimodal reward modeling.
PDF172October 17, 2025