Vídeo-R4: Reforçando o Raciocínio em Vídeos Ricos em Texto com Ruminação Visual

Resumo

A compreensão de vídeos ricos em texto exige a leitura de pistas textuais pequenas e transitórias que frequentemente demandam inspeção repetida. No entanto, a maioria dos modelos de Q&A (Question Answering) para vídeo depende de percepção única sobre frames fixos, levando a alucinações e falhas em evidências de granularidade fina. Inspirados pela forma como os humanos pausam, ampliam e releem regiões críticas, apresentamos o Video-R4 (Reforçando o Raciocínio em Vídeos Ricos em Texto com Ruminação Visual), um LMM (Large Multimodal Model) para raciocínio em vídeo que realiza a ruminação visual: seleciona iterativamente frames, amplia regiões informativas, recodifica pixels recuperados e atualiza seu estado de raciocínio. Construímos dois conjuntos de dados com trajetórias de ruminação executáveis: Video-R4-CoT-17k para prática supervisionada e Video-R4-RL-30k para aprendizado por reforço. Propomos uma estrutura de aprendizado de ruminação em múltiplos estágios que ajusta progressivamente um LMM de 7B para aprender operações visuais atômicas e de mistura via SFT (Supervised Fine-Tuning) e RL (Reinforcement Learning) baseado em GRPO. O Video-R4-7B alcança resultados state-of-the-art no M4-ViteVQA e ainda se generaliza para Q&A em documentos multipágina, Q&A em slides e Q&A genérico em vídeo, demonstrando que a ruminação iterativa é um paradigma eficaz para o raciocínio multimodal fundamentado em pixels.

English

Understanding text-rich videos requires reading small, transient textual cues that often demand repeated inspection. Yet most video QA models rely on single-pass perception over fixed frames, leading to hallucinations and failures on fine-grained evidence. Inspired by how humans pause, zoom, and re-read critical regions, we introduce Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination), a video reasoning LMM that performs visual rumination: iteratively selecting frames, zooming into informative regions, re-encoding retrieved pixels, and updating its reasoning state. We construct two datasets with executable rumination trajectories: Video-R4-CoT-17k for supervised practice and Video-R4-RL-30k for reinforcement learning. We propose a multi-stage rumination learning framework that progressively finetunes a 7B LMM to learn atomic and mixing visual operations via SFT and GRPO-based RL. Video-R4-7B achieves state-of-the-art results on M4-ViteVQA and further generalizes to multi-page document QA, slides QA, and generic video QA, demonstrating that iterative rumination is an effective paradigm for pixel-grounded multimodal reasoning.

Vídeo-R4: Reforçando o Raciocínio em Vídeos Ricos em Texto com Ruminação Visual

Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

Resumo

Support