FrameThinker: 멀티턴 프레임 스포트라이트를 통한 긴 비디오 사고 학습
FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting
September 29, 2025
저자: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng
cs.AI
초록
대규모 비전-언어 모델(LVLMs)이 비디오 이해 분야에서 상당한 진전을 이루었지만, 긴 비디오 추론에의 적용은 균일한 프레임 샘플링과 정적 텍스트 추론으로 인해 비효율적이며 시각적으로 집약적인 비디오 작업을 처리하는 데 어려움을 겪고 있습니다. 이러한 문제를 극복하기 위해, 본 논문에서는 긴 비디오를 활용한 사고 개념을 도입하고 새로운 프레임워크인 FrameThinker를 제안합니다. 이 프레임워크 내에서 LVLMs는 비디오 콘텐츠를 반복적으로 질의할 수 있습니다. LVLMs에 이러한 비디오 추론 능력을 개발하는 것은 특히 모델을 새로운 비디오 동작(예: 프레임 선택)에 적응시키고, LVLMs가 새로 도입된 동작을 채택하도록 유도하기 위한 보상 함수를 설계하는 데 있어 상당한 도전 과제를 제시합니다. 이러한 문제를 해결하기 위해, 우리는 기본 동작 능력을 심어주기 위한 지도 미세 조정(SFT) 단계와 전략적 의사 결정 정책을 최적화하기 위한 강화 학습(RL) 단계로 구성된 두 단계 훈련 전략을 제안합니다. 특히, 이 RL 단계에서는 각 동작과 형식 보상에 대한 보상 설계를 심층적이고 포괄적으로 탐구합니다. Video-Holmes, LongVideo-Reason과 같은 추론 벤치마크 및 LongVideoBench, MLVU, VideoMME, LVBench와 같은 긴 비디오 이해 벤치마크에서의 광범위한 실험을 통해 FrameThinker가 기준선 대비 평균 +10.4%의 상당한 개선을 달성하면서 처리된 프레임 수를 크게 줄인 것을 입증했습니다. 특히, 우리의 7B 모델인 FrameThinker는 LongVideo-Reason에서 평균 20.6개의 프레임만을 사용하여 76.1%의 정확도를 달성하며 새로운 최첨단 기술을 확립했습니다. 이는 경쟁 모델인 LongVILA-R1(72.0%)을 능가할 뿐만 아니라, 20배 이상 적은 프레임(512개 대비)을 사용하여 비교할 수 없는 효율성과 효과를 입증했습니다.
English
While Large Vision-Language Models (LVLMs) have achieved substantial progress
in video understanding, their application to long video reasoning is hindered
by uniform frame sampling and static textual reasoning, which are inefficient
and struggle to handle visually intensive video tasks. To overcome these
challenges, in this paper, we introduce the concept of thinking with long
videos and propose a novel framework FrameThinker. Within this framework, LVLMs
are able to iteratively interrogate video content. Developing such video
reasoning capabilities in LVLMs presents notable challenges, particularly in
adapting the model to new video actions (e.g. select frame), and designing
reward functions to guide LVLMs to adopt the newly introduced action. To solve
these challenges, we propose a two-phase training strategy, first employing
Supervised Fine-Tuning (SFT) to instill fundamental action capabilities,
followed by Reinforcement Learning (RL) to optimize a strategic decision-making
policy. Notably, in this RL phase, we conduct an in-depth and comprehensive
exploration of the reward design for each action and format reward. Extensive
experiments on reasoning benchmarks like Video-Holmes, LongVideo-Reason, and
long-video understanding benchmarks such as LongVideoBench, MLVU, VideoMME, and
LVBench, demonstrate that FrameThinker achieves a significant average
improvement of +10.4% over baselines while drastically reducing the number of
processed frames. Most notably, our 7B model, FrameThinker establishes a new
state-of-the-art on LongVideo-Reason, achieving 76.1% accuracy using an average
of only 20.6 frames. This not only outperforms the competitive LongVILA-R1
(72.0%) but does so with over 20x fewer frames (vs. 512), demonstrating
unparalleled efficiency and effectiveness.