ChatPaper.aiChatPaper

Video-R4: Stärkung des textreichen Videoverständnisses durch visuelles Reflektieren

Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

November 21, 2025
papers.authors: Yolo Yunlong Tang, Daiki Shimada, Hang Hua, Chao Huang, Jing Bi, Rogerio Feris, Chenliang Xu
cs.AI

papers.abstract

Das Verständnis von textreichen Videos erfordert das Lesen kleiner, flüchtiger Textinformationen, die oft wiederholte Betrachtung erfordern. Dennoch stützen sich die meisten Video-Frage-Antwort-Modelle auf eine Einmalwahrnehmung über feste Frames, was zu Halluzinationen und Fehlern bei feingranularen Beweisen führt. Inspiriert davon, wie Menschen kritische Bereiche anhalten, zoomen und erneut lesen, stellen wir Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination) vor – ein Video-Reasoning-LMM, das visuelle Rumination durchführt: iteratives Auswählen von Frames, Zoomen in informative Regionen, Neuencodieren der erfassten Pixel und Aktualisieren seines Reasoning-Zustands. Wir konstruieren zwei Datensätze mit ausführbaren Ruminationstrajektorien: Video-R4-CoT-17k für überwachtes Üben und Video-R4-RL-30k für bestärkendes Lernen. Wir schlagen ein mehrstufiges Rumination-Lernframework vor, das schrittweise ein 7B-LMM feinabstimmt, um atomare und kombinierte visuelle Operationen via SFT und GRPO-basiertem RL zu erlernen. Video-R4-7B erzielt state-of-the-art Ergebnisse auf M4-ViteVQA und generalisiert zudem auf Multi-Page-Dokument-QA, Folien-QA und generische Video-QA, was demonstriert, dass iterative Rumination ein effektives Paradigma für pixelbasiertes multimodales Reasoning ist.
English
Understanding text-rich videos requires reading small, transient textual cues that often demand repeated inspection. Yet most video QA models rely on single-pass perception over fixed frames, leading to hallucinations and failures on fine-grained evidence. Inspired by how humans pause, zoom, and re-read critical regions, we introduce Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination), a video reasoning LMM that performs visual rumination: iteratively selecting frames, zooming into informative regions, re-encoding retrieved pixels, and updating its reasoning state. We construct two datasets with executable rumination trajectories: Video-R4-CoT-17k for supervised practice and Video-R4-RL-30k for reinforcement learning. We propose a multi-stage rumination learning framework that progressively finetunes a 7B LMM to learn atomic and mixing visual operations via SFT and GRPO-based RL. Video-R4-7B achieves state-of-the-art results on M4-ViteVQA and further generalizes to multi-page document QA, slides QA, and generic video QA, demonstrating that iterative rumination is an effective paradigm for pixel-grounded multimodal reasoning.
PDF201December 1, 2025