VR-Thinker: Potenciación de Modelos de Recompensa en Video mediante Razonamiento con Imágenes
VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning
October 12, 2025
Autores: Qunzhong Wang, Jie Liu, Jiajun Liang, Yilei Jiang, Yuanxing Zhang, Jinyuan Chen, Yaozhi Zheng, Xintao Wang, Pengfei Wan, Xiangyu Yue, Jiaheng Liu
cs.AI
Resumen
Los avances recientes en los modelos de recompensa multimodal (RMs, por sus siglas en inglés) han mejorado sustancialmente el entrenamiento posterior de los modelos generativos visuales. Sin embargo, los RMs actuales enfrentan limitaciones inherentes: (1) las entradas visuales consumen grandes presupuestos de contexto, lo que obliga a utilizar menos fotogramas y provoca la pérdida de detalles finos; y (2) toda la información visual se comprime en el prompt inicial, exacerbando la alucinación y el olvido durante el razonamiento en cadena de pensamiento. Para superar estos problemas, presentamos VideoReward Thinker (VR-Thinker), un marco de pensamiento con imágenes que equipa al RM con operaciones de razonamiento visual (por ejemplo, seleccionar fotograma) y una ventana de memoria visual configurable. Esto permite que el RM adquiera y actualice activamente evidencia visual dentro de los límites del contexto, mejorando la fidelidad y confiabilidad del razonamiento. Activamos el razonamiento visual mediante una canalización de ajuste fino por refuerzo: (i) Inicio en frío con datos curados de cadena de pensamiento visual para destilar habilidades básicas de razonamiento y formato de operaciones; (ii) selección de muestras cuyos juicios por dimensión y generales son todos correctos, seguido de un ajuste fino por muestreo de rechazo en estas trazas de alta calidad para mejorar aún más el razonamiento; y (iii) aplicación de la Optimización de Política Relativa en Grupo (GRPO, por sus siglas en inglés) para fortalecer el razonamiento. Nuestro enfoque ofrece una precisión de vanguardia entre los modelos de código abierto en puntos de referencia de preferencia de video, especialmente para videos más largos: un VR-Thinker de 7B logra un 80.5% en VideoGen Reward, un 82.3% en GenAI-Bench y un 75.6% en MJ-Bench-Video. Estos resultados validan la efectividad y promesa del modelado de recompensa multimodal con pensamiento en imágenes.
English
Recent advancements in multimodal reward models (RMs) have substantially
improved post-training for visual generative models. However, current RMs face
inherent limitations: (1) visual inputs consume large context budgets, forcing
fewer frames and causing loss of fine-grained details; and (2) all visual
information is packed into the initial prompt, exacerbating hallucination and
forgetting during chain-of-thought reasoning. To overcome these issues, we
introduce VideoReward Thinker (VR-Thinker), a thinking-with-image framework
that equips the RM with visual reasoning operations (e.g., select frame) and a
configurable visual memory window. This allows the RM to actively acquire and
update visual evidence within context limits, improving reasoning fidelity and
reliability. We activate visual reasoning via a reinforcement fine-tuning
pipeline: (i) Cold Start with curated visual chain-of-thought data to distill
basic reasoning skills and operation formatting; (ii) select samples whose
per-dimension and overall judgments are all correct, then conduct Rejection
sampling Fine-Tuning on these high-quality traces to further enhance reasoning;
and (iii) apply Group Relative Policy Optimization (GRPO) to strengthen
reasoning. Our approach delivers state-of-the-art accuracy among open-source
models on video preference benchmarks, especially for longer videos: a 7B
VR-Thinker achieves 80.5% on VideoGen Reward, 82.3% on GenAI-Bench, and 75.6%
on MJ-Bench-Video. These results validate the effectiveness and promise of
thinking-with-image multimodal reward modeling.