ChatPaper.aiChatPaper

Video-R4: Усиление анализа текстоориентированного видео с помощью визуальной руминации

Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

November 21, 2025
Авторы: Yolo Yunlong Tang, Daiki Shimada, Hang Hua, Chao Huang, Jing Bi, Rogerio Feris, Chenliang Xu
cs.AI

Аннотация

Понимание видеороликов с обилием текста требует считывания мелких, быстро исчезающих текстовых подсказок, что часто предполагает многократный просмотр. Однако большинство моделей для вопросно-ответных систем по видео опираются на однократное восприятие фиксированных кадров, что приводит к галлюцинациям и ошибкам при работе с детализированными свидетельствами. Вдохновившись тем, как люди ставят на паузу, приближают и перечитывают ключевые области, мы представляем Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination) — языковую модель большого размера (LMM) для рассуждений о видео, которая выполняет визуальную руминацию: итеративно выбирает кадры, увеличивает информативные области, перекодирует извлеченные пиксели и обновляет свое состояние рассуждений. Мы создали два набора данных с исполняемыми траекториями руминации: Video-R4-CoT-17k для контролируемой практики и Video-R4-RL-30k для обучения с подкреплением. Мы предлагаем многоэтапную систему обучения руминации, которая поэтапно дообучает 7-миллиардную LMM для изучения атомарных и смешанных визуальных операций с помощью SFT и RL на основе GRPO. Video-R4-7B достигает наилучших результатов на M4-ViteVQA и, кроме того, обобщается на задачи вопросно-ответных систем по многостраничным документам, слайдам и видео общего типа, демонстрируя, что итеративная руминация является эффективной парадигмой для мультимодальных рассуждений, основанных на пикселях.
English
Understanding text-rich videos requires reading small, transient textual cues that often demand repeated inspection. Yet most video QA models rely on single-pass perception over fixed frames, leading to hallucinations and failures on fine-grained evidence. Inspired by how humans pause, zoom, and re-read critical regions, we introduce Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination), a video reasoning LMM that performs visual rumination: iteratively selecting frames, zooming into informative regions, re-encoding retrieved pixels, and updating its reasoning state. We construct two datasets with executable rumination trajectories: Video-R4-CoT-17k for supervised practice and Video-R4-RL-30k for reinforcement learning. We propose a multi-stage rumination learning framework that progressively finetunes a 7B LMM to learn atomic and mixing visual operations via SFT and GRPO-based RL. Video-R4-7B achieves state-of-the-art results on M4-ViteVQA and further generalizes to multi-page document QA, slides QA, and generic video QA, demonstrating that iterative rumination is an effective paradigm for pixel-grounded multimodal reasoning.
PDF201December 1, 2025