Video-R4: 시각적 반추를 통한 텍스트 중심 비디오 추론 강화
Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
November 21, 2025
저자: Yolo Yunlong Tang, Daiki Shimada, Hang Hua, Chao Huang, Jing Bi, Rogerio Feris, Chenliang Xu
cs.AI
초록
텍스트가 풍부한 동영상을 이해하려면 반복적인 확인이 필요한 작고 일시적인 텍스트 단서를 읽어내야 합니다. 그러나 대부분의 동영상 질의응답 모델은 고정된 프레임에 대한 단일 패스 인식에 의존하여 세밀한 증거에서 환각 현상과 실패를 초래합니다. 인간이 중요한 영역을 일시 정지, 확대, 재검토하는 방식에서 영감을 받아, 우리는 시각적 반추(Visual Rumination)를 수행하는 동영상 추론 LMM인 Video-R4(Reinforcing Text-Rich Video Reasoning with Visual Rumination)를 제안합니다. 이는 프레임을 반복적으로 선택하고 정보성 있는 영역을 확대하며 검색된 픽셀을 재인코딩하고 추론 상태를 업데이트합니다. 우리는 실행 가능한 반추 궤적을 가진 두 가지 데이터셋(Video-R4-CoT-17k: 지도 학습용, Video-R4-RL-30k: 강화 학습용)을 구축했습니다. 또한 SFT와 GRPO 기반 강화 학습을 통해 7B LMM을 점진적으로 미세 조정하여 원자적 및 혼합 시각 연산을 학습하는 다단계 반추 학습 프레임워크를 제안합니다. Video-R4-7B는 M4-ViteVQA에서 최첨단 성능을 달성하고 다중 페이지 문서 QA, 슬라이드 QA, 일반 동영상 QA로도 일반화되어 반복적 반추가 픽셀 기반 다중 모달 추론에 효과적인 패러다임임을 입증합니다.
English
Understanding text-rich videos requires reading small, transient textual cues that often demand repeated inspection. Yet most video QA models rely on single-pass perception over fixed frames, leading to hallucinations and failures on fine-grained evidence. Inspired by how humans pause, zoom, and re-read critical regions, we introduce Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination), a video reasoning LMM that performs visual rumination: iteratively selecting frames, zooming into informative regions, re-encoding retrieved pixels, and updating its reasoning state. We construct two datasets with executable rumination trajectories: Video-R4-CoT-17k for supervised practice and Video-R4-RL-30k for reinforcement learning. We propose a multi-stage rumination learning framework that progressively finetunes a 7B LMM to learn atomic and mixing visual operations via SFT and GRPO-based RL. Video-R4-7B achieves state-of-the-art results on M4-ViteVQA and further generalizes to multi-page document QA, slides QA, and generic video QA, demonstrating that iterative rumination is an effective paradigm for pixel-grounded multimodal reasoning.