LongVideo-R1: 저비용 장영상 이해를 위한 스마트 네비게이션
LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding
February 24, 2026
저자: Jihao Qiu, Lingxi Xie, Xinyue Huo, Qi Tian, Qixiang Ye
cs.AI
초록
본 논문은 낮은 계산 예산으로 긴 영상을 이해해야 하는 중요하면서도 충분히 탐구되지 않은 과제를 다룹니다. 우리는 철저한 검색의 중복을 피하며 효율적인 영상 콘텍스트 탐색을 위해 설계된, 추론 능력을 갖춘 능동형 다중모달 대규모 언어 모델(MLLM) 에이전트인 LongVideo-R1을 제안합니다. LongVideo-R1의 핵심에는 높은 수준의 시각적 단서를 활용하여 후속 처리에 가장 유익한 영상 클립을 추론하는 추론 모듈이 있습니다. 추론 과정에서 에이전트는 최상위 수준의 시각적 요약부터 탐색을 시작하고 반복적으로 초점을 정제하며, 질의에 답변하기에 충분한 지식을 습득하는 즉시 탐색 과정을 중단합니다. 학습을 위해 우리는 먼저 grounding 주석이 달린 영상 코퍼스인 CGBench에서 계층적 영상 캡션을 추출하고, GPT-5를 활용하여 33,000개의 고품질 생각의 사슬-도구 활용(chain-of-thought-with-tool) 궤적을 생성합니다. LongVideo-R1 에이전트는 두 단계 패러다임(지도 미세 조정(SFT) 후 강화 학습(RL))을 통해 Qwen-3-8B 모델을 기반으로 미세 조정되며, 여기서 RL은 선택적이고 효율적인 클립 탐색을 극대화하기 위해 특별히 설계된 보상 함수를 사용합니다. 여러 긴 영상 벤치마크에서의 실험을 통해 제안 모델의 효과가 입증되었으며, 이는 질의응답 정확도와 효율성 사이에서 우수한 균형을 달성합니다. 모든 정제된 데이터와 소스 코드는 보충 자료에 제공되며 공개될 예정입니다. 코드와 데이터는 https://github.com/qiujihao19/LongVideo-R1에서 확인할 수 있습니다.
English
This paper addresses the critical and underexplored challenge of long video understanding with low computational budgets. We propose LongVideo-R1, an active, reasoning-equipped multimodal large language model (MLLM) agent designed for efficient video context navigation, avoiding the redundancy of exhaustive search. At the core of LongVideo-R1 lies a reasoning module that leverages high-level visual cues to infer the most informative video clip for subsequent processing. During inference, the agent initiates traversal from top-level visual summaries and iteratively refines its focus, immediately halting the exploration process upon acquiring sufficient knowledge to answer the query. To facilitate training, we first extract hierarchical video captions from CGBench, a video corpus with grounding annotations, and guide GPT-5 to generate 33K high-quality chain-of-thought-with-tool trajectories. The LongVideo-R1 agent is fine-tuned upon the Qwen-3-8B model through a two-stage paradigm: supervised fine-tuning (SFT) followed by reinforcement learning (RL), where RL employs a specifically designed reward function to maximize selective and efficient clip navigation. Experiments on multiple long video benchmarks validate the effectiveness of name, which enjoys superior tradeoff between QA accuracy and efficiency. All curated data and source code are provided in the supplementary material and will be made publicly available. Code and data are available at: https://github.com/qiujihao19/LongVideo-R1