ChatPaper.aiChatPaper

VR-Thinker: Potenziamento dei Modelli di Ricompensa Video attraverso il Ragionamento con Immagini

VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

October 12, 2025
Autori: Qunzhong Wang, Jie Liu, Jiajun Liang, Yilei Jiang, Yuanxing Zhang, Jinyuan Chen, Yaozhi Zheng, Xintao Wang, Pengfei Wan, Xiangyu Yue, Jiaheng Liu
cs.AI

Abstract

I recenti progressi nei modelli di ricompensa multimodale (RMs) hanno notevolmente migliorato il post-training per i modelli generativi visivi. Tuttavia, gli attuali RMs presentano limitazioni intrinseche: (1) gli input visivi consumano ampi budget di contesto, costringendo a un numero ridotto di frame e causando la perdita di dettagli fini; e (2) tutte le informazioni visive vengono compresse nel prompt iniziale, aggravando il fenomeno di allucinazione e dimenticanza durante il ragionamento a catena di pensiero. Per superare questi problemi, introduciamo VideoReward Thinker (VR-Thinker), un framework di pensiero-con-immagini che equipaggia l'RM con operazioni di ragionamento visivo (ad esempio, selezione del frame) e una finestra di memoria visiva configurabile. Ciò consente all'RM di acquisire e aggiornare attivamente le evidenze visive entro i limiti del contesto, migliorando la fedeltà e l'affidabilità del ragionamento. Attiviamo il ragionamento visivo attraverso una pipeline di fine-tuning a rinforzo: (i) Avvio a freddo con dati curati di catena di pensiero visiva per distillare le abilità di ragionamento di base e la formattazione delle operazioni; (ii) selezione di campioni i cui giudizi per dimensione e complessivi sono tutti corretti, seguito da un Fine-Tuning con campionamento di rifiuto su queste tracce di alta qualità per migliorare ulteriormente il ragionamento; e (iii) applicazione dell'ottimizzazione relativa delle politiche di gruppo (GRPO) per rafforzare il ragionamento. Il nostro approccio raggiunge un'accuratezza all'avanguardia tra i modelli open-source sui benchmark di preferenza video, specialmente per video più lunghi: un VR-Thinker da 7B ottiene l'80,5% su VideoGen Reward, l'82,3% su GenAI-Bench e il 75,6% su MJ-Bench-Video. Questi risultati convalidano l'efficacia e la promessa della modellazione multimodale di ricompensa con pensiero-con-immagini.
English
Recent advancements in multimodal reward models (RMs) have substantially improved post-training for visual generative models. However, current RMs face inherent limitations: (1) visual inputs consume large context budgets, forcing fewer frames and causing loss of fine-grained details; and (2) all visual information is packed into the initial prompt, exacerbating hallucination and forgetting during chain-of-thought reasoning. To overcome these issues, we introduce VideoReward Thinker (VR-Thinker), a thinking-with-image framework that equips the RM with visual reasoning operations (e.g., select frame) and a configurable visual memory window. This allows the RM to actively acquire and update visual evidence within context limits, improving reasoning fidelity and reliability. We activate visual reasoning via a reinforcement fine-tuning pipeline: (i) Cold Start with curated visual chain-of-thought data to distill basic reasoning skills and operation formatting; (ii) select samples whose per-dimension and overall judgments are all correct, then conduct Rejection sampling Fine-Tuning on these high-quality traces to further enhance reasoning; and (iii) apply Group Relative Policy Optimization (GRPO) to strengthen reasoning. Our approach delivers state-of-the-art accuracy among open-source models on video preference benchmarks, especially for longer videos: a 7B VR-Thinker achieves 80.5% on VideoGen Reward, 82.3% on GenAI-Bench, and 75.6% on MJ-Bench-Video. These results validate the effectiveness and promise of thinking-with-image multimodal reward modeling.
PDF172October 17, 2025