Vidéo-R4 : Renforcement du raisonnement vidéo riche en texte par la rumination visuelle
Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
November 21, 2025
papers.authors: Yolo Yunlong Tang, Daiki Shimada, Hang Hua, Chao Huang, Jing Bi, Rogerio Feris, Chenliang Xu
cs.AI
papers.abstract
Comprendre les vidéos riches en texte nécessite de lire de petits indices textuels transitoires qui exigent souvent une inspection répétée. Pourtant, la plupart des modèles de question-réponse (QA) vidéo reposent sur une perception unique sur des images fixes, conduisant à des hallucinations et des échecs sur des preuves fines. Inspiré par la façon dont les humains font pause, zooment et relisent les régions critiques, nous présentons Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination), un LMM de raisonnement vidéo qui effectue une rumination visuelle : il sélectionne itérativement des images, zoome sur les régions informatives, réencode les pixels récupérés et met à jour son état de raisonnement. Nous construisons deux jeux de données avec des trajectoires de rumination exécutables : Video-R4-CoT-17k pour l'apprentissage supervisé et Video-R4-RL-30k pour l'apprentissage par renforcement. Nous proposons un cadre d'apprentissage par rumination multi-étapes qui affine progressivement un LMM de 7B pour apprendre des opérations visuelles atomiques et de mélange via SFT et un RL basé sur GRPO. Video-R4-7B obtient des résultats state-of-the-art sur M4-ViteVQA et se généralise en outre au QA de documents multi-pages, au QA de diapositives et au QA vidéo générique, démontrant que la rumination itérative est un paradigme efficace pour le raisonnement multimodal ancré sur les pixels.
English
Understanding text-rich videos requires reading small, transient textual cues that often demand repeated inspection. Yet most video QA models rely on single-pass perception over fixed frames, leading to hallucinations and failures on fine-grained evidence. Inspired by how humans pause, zoom, and re-read critical regions, we introduce Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination), a video reasoning LMM that performs visual rumination: iteratively selecting frames, zooming into informative regions, re-encoding retrieved pixels, and updating its reasoning state. We construct two datasets with executable rumination trajectories: Video-R4-CoT-17k for supervised practice and Video-R4-RL-30k for reinforcement learning. We propose a multi-stage rumination learning framework that progressively finetunes a 7B LMM to learn atomic and mixing visual operations via SFT and GRPO-based RL. Video-R4-7B achieves state-of-the-art results on M4-ViteVQA and further generalizes to multi-page document QA, slides QA, and generic video QA, demonstrating that iterative rumination is an effective paradigm for pixel-grounded multimodal reasoning.