VR-Thinker: 이미지 사고 추론을 통한 비디오 보상 모델 강화
VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning
October 12, 2025
저자: Qunzhong Wang, Jie Liu, Jiajun Liang, Yilei Jiang, Yuanxing Zhang, Jinyuan Chen, Yaozhi Zheng, Xintao Wang, Pengfei Wan, Xiangyu Yue, Jiaheng Liu
cs.AI
초록
최근 멀티모달 보상 모델(RMs)의 발전으로 시각적 생성 모델의 사후 훈련이 크게 개선되었습니다. 그러나 현재의 RMs는 본질적인 한계에 직면해 있습니다: (1) 시각적 입력이 큰 컨텍스트 예산을 소모하여 더 적은 프레임을 강제하고 세부적인 디테일의 손실을 초래하며; (2) 모든 시각적 정보가 초기 프롬프트에 집약되어 사고 연쇄 추론 과정에서 환각과 망각을 악화시킵니다. 이러한 문제를 극복하기 위해, 우리는 VideoReward Thinker(VR-Thinker)를 소개합니다. 이는 RM에 시각적 추론 작업(예: 프레임 선택)과 구성 가능한 시각적 메모리 창을 제공하는 이미지와 함께 사고하는 프레임워크입니다. 이를 통해 RM은 컨텍스트 한계 내에서 능동적으로 시각적 증거를 획득하고 업데이트하여 추론의 정확성과 신뢰성을 향상시킵니다. 우리는 강화 학습 미세 조정 파이프라인을 통해 시각적 추론을 활성화합니다: (i) 기본 추론 기술과 작업 형식을 증류하기 위해 선별된 시각적 사고 연쇄 데이터로 콜드 스타트를 수행하고; (ii) 각 차원 및 전체 판단이 모두 정확한 샘플을 선택한 후, 이러한 고품질 추적에 대해 거부 샘플링 미세 조정을 수행하여 추론을 더욱 강화하며; (iii) 그룹 상대 정책 최적화(GRPO)를 적용하여 추론을 강화합니다. 우리의 접근 방식은 비디오 선호 벤치마크에서 오픈소스 모델 중 최첨단 정확도를 제공하며, 특히 더 긴 비디오에서: 7B VR-Thinker는 VideoGen Reward에서 80.5%, GenAI-Bench에서 82.3%, MJ-Bench-Video에서 75.6%를 달성했습니다. 이러한 결과는 이미지와 함께 사고하는 멀티모달 보상 모델링의 효과성과 가능성을 검증합니다.
English
Recent advancements in multimodal reward models (RMs) have substantially
improved post-training for visual generative models. However, current RMs face
inherent limitations: (1) visual inputs consume large context budgets, forcing
fewer frames and causing loss of fine-grained details; and (2) all visual
information is packed into the initial prompt, exacerbating hallucination and
forgetting during chain-of-thought reasoning. To overcome these issues, we
introduce VideoReward Thinker (VR-Thinker), a thinking-with-image framework
that equips the RM with visual reasoning operations (e.g., select frame) and a
configurable visual memory window. This allows the RM to actively acquire and
update visual evidence within context limits, improving reasoning fidelity and
reliability. We activate visual reasoning via a reinforcement fine-tuning
pipeline: (i) Cold Start with curated visual chain-of-thought data to distill
basic reasoning skills and operation formatting; (ii) select samples whose
per-dimension and overall judgments are all correct, then conduct Rejection
sampling Fine-Tuning on these high-quality traces to further enhance reasoning;
and (iii) apply Group Relative Policy Optimization (GRPO) to strengthen
reasoning. Our approach delivers state-of-the-art accuracy among open-source
models on video preference benchmarks, especially for longer videos: a 7B
VR-Thinker achieves 80.5% on VideoGen Reward, 82.3% on GenAI-Bench, and 75.6%
on MJ-Bench-Video. These results validate the effectiveness and promise of
thinking-with-image multimodal reward modeling.