ChatPaper.aiChatPaper

Video-R4: 視覚的反芻によるテキスト豊富な動画推論の強化

Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

November 21, 2025
著者: Yolo Yunlong Tang, Daiki Shimada, Hang Hua, Chao Huang, Jing Bi, Rogerio Feris, Chenliang Xu
cs.AI

要旨

テキスト豊富な動画を理解するには、小さく一過性のテキスト手がかりを読み取る必要があり、多くの場合繰り返しの確認が求められます。しかし既存の動画QAモデルの多くは、固定フレームに対する単一パスの知覚に依存しており、微細な証拠の認識において幻覚生成や失敗を引き起こしています。人間が重要な領域で一時停止、拡大、再読する方法に着想を得て、私たちはVideo-R4(Visual Ruminationによるテキスト豊富動画推論の強化)を提案します。これは視覚的反芻(ビジュアルルミネーション)を実行する動画推論LMMであり、フレームの反復的選択、情報豊富な領域へのズーム、取得ピクセルの再エンコード、推論状態の更新を行います。実行可能な反芻軌道を含む2つのデータセットを構築しました:教師あり学習のためのVideo-R4-CoT-17kと強化学習のためのVideo-R4-RL-30kです。7BパラメータLMMを段階的にファインチューニングし、SFTとGRPOベースの強化学習を通じて原子的視覚操作と混合操作を学習する多段階反芻学習フレームワークを提案します。Video-R4-7BはM4-ViteVQAでState-of-the-Artを達成し、さらにマルチページ文書QA、スライドQA、汎用動画QAへも一般化可能であり、反復的反芻がピクセルに基づいたマルチモーダル推論の効果的パラダイムであることを実証しました。
English
Understanding text-rich videos requires reading small, transient textual cues that often demand repeated inspection. Yet most video QA models rely on single-pass perception over fixed frames, leading to hallucinations and failures on fine-grained evidence. Inspired by how humans pause, zoom, and re-read critical regions, we introduce Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination), a video reasoning LMM that performs visual rumination: iteratively selecting frames, zooming into informative regions, re-encoding retrieved pixels, and updating its reasoning state. We construct two datasets with executable rumination trajectories: Video-R4-CoT-17k for supervised practice and Video-R4-RL-30k for reinforcement learning. We propose a multi-stage rumination learning framework that progressively finetunes a 7B LMM to learn atomic and mixing visual operations via SFT and GRPO-based RL. Video-R4-7B achieves state-of-the-art results on M4-ViteVQA and further generalizes to multi-page document QA, slides QA, and generic video QA, demonstrating that iterative rumination is an effective paradigm for pixel-grounded multimodal reasoning.
PDF201December 1, 2025