ChatPaper.aiChatPaper

Video-R4: Versterking van tekstrijke videoredenering met visuele herkauwing

Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

November 21, 2025
Auteurs: Yolo Yunlong Tang, Daiki Shimada, Hang Hua, Chao Huang, Jing Bi, Rogerio Feris, Chenliang Xu
cs.AI

Samenvatting

Het begrijpen van tekstrijke video's vereist het lezen van kleine, vluchtige tekstuele aanwijzingen die vaak herhaaldelijk bekeken moeten worden. Toch vertrouwen de meeste video-VA-modellen (vraag-antwoord) op eenmalige waarneming van vaste frames, wat leidt tot hallucinaties en fouten bij fijnmazig bewijs. Geïnspireerd door hoe mensen pauzeren, inzoomen en kritieke gebieden herlezen, introduceren we Video-R4 (Versterking van Tekstrijke Videoredenering met Visuele Ruminatie), een videoredeneer-LMM (large multimodal model) dat visuele ruminatie uitvoert: iteratief frames selecteren, inzoomen op informatieve regio's, opgehaalde pixels opnieuw coderen en zijn redeneertoestand bijwerken. We construeren twee datasets met uitvoerbare ruminatietrajecten: Video-R4-CoT-17k voor gesuperviseerde oefening en Video-R4-RL-30k voor reinforcement learning. We stellen een meerfasen ruminatieleerframework voor dat een 7B-LMM progressief fine-tunt om atomische en mengende visuele operaties te leren via SFT (supervised fine-tuning) en GRPO-gebaseerde RL (reinforcement learning). Video-R4-7B behaalt state-of-the-art resultaten op M4-ViteVQA en generaliseert verder naar VA voor meerdere documentpagina's, VA voor presentatiedia's en generieke video-VA, wat aantoont dat iteratieve ruminatie een effectief paradigma is voor op pixels gegronde multimodale redenering.
English
Understanding text-rich videos requires reading small, transient textual cues that often demand repeated inspection. Yet most video QA models rely on single-pass perception over fixed frames, leading to hallucinations and failures on fine-grained evidence. Inspired by how humans pause, zoom, and re-read critical regions, we introduce Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination), a video reasoning LMM that performs visual rumination: iteratively selecting frames, zooming into informative regions, re-encoding retrieved pixels, and updating its reasoning state. We construct two datasets with executable rumination trajectories: Video-R4-CoT-17k for supervised practice and Video-R4-RL-30k for reinforcement learning. We propose a multi-stage rumination learning framework that progressively finetunes a 7B LMM to learn atomic and mixing visual operations via SFT and GRPO-based RL. Video-R4-7B achieves state-of-the-art results on M4-ViteVQA and further generalizes to multi-page document QA, slides QA, and generic video QA, demonstrating that iterative rumination is an effective paradigm for pixel-grounded multimodal reasoning.
PDF201December 1, 2025