ChatPaper.aiChatPaper

Video-R4: Reforzamiento del Razonamiento en Videos con Texto Abundante mediante Rumiación Visual

Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

November 21, 2025
Autores: Yolo Yunlong Tang, Daiki Shimada, Hang Hua, Chao Huang, Jing Bi, Rogerio Feris, Chenliang Xu
cs.AI

Resumen

Comprender videos ricos en texto requiere leer pequeñas pistas textuales transitorias que a menudo exigen una inspección repetida. Sin embargo, la mayoría de los modelos de QA (Question Answering) para videos se basan en una percepción de una sola pasada sobre fotogramas fijos, lo que conduce a alucinaciones y fallos en evidencias de grano fino. Inspirados en cómo los humanos pausan, hacen zoom y releen regiones críticas, presentamos Video-R4 (Reforzando el Razonamiento en Videos Ricos en Texto con Rumia Visual), un Modelo de Lenguaje Multimodal (LMM) para razonamiento en videos que realiza una rumia visual: seleccionando iterativamente fotogramas, haciendo zoom en regiones informativas, recodificando los píxeles recuperados y actualizando su estado de razonamiento. Construimos dos conjuntos de datos con trayectorias de rumia ejecutables: Video-R4-CoT-17k para práctica supervisada y Video-R4-RL-30k para aprendizaje por refuerzo. Proponemos un marco de aprendizaje de rumia multi-etapa que ajusta progresivamente un LMM de 7B para aprender operaciones visuales atómicas y de mezcla mediante Fine-Tuning Supervisado (SFT) y Aprendizaje por Refuerzo basado en GRPO. Video-R4-7B logra resultados state-of-the-art en M4-ViteVQA y además se generaliza a QA de documentos multipágina, QA de diapositivas y QA genérico de videos, demostrando que la rumia iterativa es un paradigma efectivo para el razonamiento multimodal anclado en píxeles.
English
Understanding text-rich videos requires reading small, transient textual cues that often demand repeated inspection. Yet most video QA models rely on single-pass perception over fixed frames, leading to hallucinations and failures on fine-grained evidence. Inspired by how humans pause, zoom, and re-read critical regions, we introduce Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination), a video reasoning LMM that performs visual rumination: iteratively selecting frames, zooming into informative regions, re-encoding retrieved pixels, and updating its reasoning state. We construct two datasets with executable rumination trajectories: Video-R4-CoT-17k for supervised practice and Video-R4-RL-30k for reinforcement learning. We propose a multi-stage rumination learning framework that progressively finetunes a 7B LMM to learn atomic and mixing visual operations via SFT and GRPO-based RL. Video-R4-7B achieves state-of-the-art results on M4-ViteVQA and further generalizes to multi-page document QA, slides QA, and generic video QA, demonstrating that iterative rumination is an effective paradigm for pixel-grounded multimodal reasoning.
PDF201December 1, 2025