비디오 씽커: 강화 학습을 통한 '비디오와 함께 생각하기'의 활성화
Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning
October 27, 2025
저자: Shijian Wang, Jiarui Jin, Xingjian Wang, Linxin Song, Runhao Fu, Hecheng Wang, Zongyuan Ge, Yuan Lu, Xuelian Cheng
cs.AI
초록
최근 이미지 추론 방법, 특히 "이미지로 사고하기(Thinking with Images)"의 발전은 멀티모달 대규모 언어 모델(MLLM)에서 놀라운 성과를 보여주었으나, 이러한 동적 추론 패러다임은 아직 비디오 추론 작업으로 확장되지 못했습니다. 본 논문에서는 MLLM이 추론 과정 전반에 걸쳐 자체 내재된 "그라운딩(grounding)" 및 "캡셔닝(captioning)" 능력을 자율적으로 활용하여 추론 단서를 생성함으로써 비디오로 사고할 수 있도록 하는 Video-Thinker를 제안합니다. 이러한 능력을 활성화하기 위해 우리는 사고 연쇄(chain-of-thought) 추론 과정 내 자율적 도구 사용을 특징으로 하는 정제된 데이터셋인 Video-Thinker-10K를 구축했습니다. 우리의 훈련 전략은 지도 미세 조정(SFT)을 통해 추론 형식을 학습하는 것으로 시작하며, 그룹 상대 정책 최적화(GRPO)를 통해 이러한 추론 능력을 강화합니다. 이러한 접근을 통해 Video-Thinker는 MLLM이 외부 도구를 구축하고 호출할 필요 없이 비디오 추론을 위한 그라운딩 및 캡셔닝 작업을 자율적으로 수행할 수 있게 합니다. 폭넓은 실험을 통해 Video-Thinker가 도메인 내 작업과 Video-Holmes, CG-Bench-Reasoning, VRBench를 포함한 까다로운 도메인 외 비디오 추론 벤치마크 모두에서 상당한 성능 향상을 달성함을 입증했습니다. 우리의 Video-Thinker-7B는 Video-R1과 같은 기존 베이스라인을 크게 능가하며 70억 파라미터 규모 MLLM 중 최첨단 성능을 확립했습니다.
English
Recent advances in image reasoning methods, particularly "Thinking with
Images", have demonstrated remarkable success in Multimodal Large Language
Models (MLLMs); however, this dynamic reasoning paradigm has not yet been
extended to video reasoning tasks. In this paper, we propose Video-Thinker,
which empowers MLLMs to think with videos by autonomously leveraging their
intrinsic "grounding" and "captioning" capabilities to generate reasoning clues
throughout the inference process. To spark this capability, we construct
Video-Thinker-10K, a curated dataset featuring autonomous tool usage within
chain-of-thought reasoning sequences. Our training strategy begins with
Supervised Fine-Tuning (SFT) to learn the reasoning format, followed by Group
Relative Policy Optimization (GRPO) to strengthen this reasoning capability.
Through this approach, Video-Thinker enables MLLMs to autonomously navigate
grounding and captioning tasks for video reasoning, eliminating the need for
constructing and calling external tools. Extensive experiments demonstrate that
Video-Thinker achieves significant performance gains on both in-domain tasks
and challenging out-of-domain video reasoning benchmarks, including
Video-Holmes, CG-Bench-Reasoning, and VRBench. Our Video-Thinker-7B
substantially outperforms existing baselines such as Video-R1 and establishes
state-of-the-art performance among 7B-sized MLLMs.