Video-R4: Rafforzare il ragionamento video ricco di testo con la ruminazione visiva
Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
November 21, 2025
Autori: Yolo Yunlong Tang, Daiki Shimada, Hang Hua, Chao Huang, Jing Bi, Rogerio Feris, Chenliang Xu
cs.AI
Abstract
La comprensione di video ricchi di testo richiede la lettura di piccoli indizi testuali transitori che spesso necessitano di ispezioni ripetute. Tuttavia, la maggior parte dei modelli di domanda-risposta su video si basa su una percezione a passaggio singolo su fotogrammi fissi, portando ad allucinazioni e fallimenti su evidenze granulari. Ispirati dal modo in cui gli esseri umani mettono in pausa, zoomano e rileggono regioni critiche, introduciamo Video-R4 (Rinforzare il Ragionamento su Video Ricchi di Testo con la Ruminazione Visiva), un LMM per il ragionamento video che esegue la ruminazione visiva: selezionando iterativamente fotogrammi, zoomando su regioni informative, ricodificando i pixel recuperati e aggiornando il suo stato di ragionamento. Costruiamo due dataset con traiettorie di ruminazione eseguibili: Video-R4-CoT-17k per la pratica supervisionata e Video-R4-RL-30k per l'apprendimento per rinforzo. Proponiamo un framework di apprendimento per ruminazione multi-stadio che affina progressivamente un LMM da 7B per apprendere operazioni visive atomiche e di miscelazione tramite SFT e RL basato su GRPO. Video-R4-7B raggiunge risultati all'avanguardia su M4-ViteVQA e si generalizza ulteriormente al QA su documenti multi-pagina, QA su slide e QA video generico, dimostrando che la ruminazione iterativa è un paradigma efficace per il ragionamento multimodale ancorato ai pixel.
English
Understanding text-rich videos requires reading small, transient textual cues that often demand repeated inspection. Yet most video QA models rely on single-pass perception over fixed frames, leading to hallucinations and failures on fine-grained evidence. Inspired by how humans pause, zoom, and re-read critical regions, we introduce Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination), a video reasoning LMM that performs visual rumination: iteratively selecting frames, zooming into informative regions, re-encoding retrieved pixels, and updating its reasoning state. We construct two datasets with executable rumination trajectories: Video-R4-CoT-17k for supervised practice and Video-R4-RL-30k for reinforcement learning. We propose a multi-stage rumination learning framework that progressively finetunes a 7B LMM to learn atomic and mixing visual operations via SFT and GRPO-based RL. Video-R4-7B achieves state-of-the-art results on M4-ViteVQA and further generalizes to multi-page document QA, slides QA, and generic video QA, demonstrating that iterative rumination is an effective paradigm for pixel-grounded multimodal reasoning.