VideoDeepResearch: 에이전트 도구를 활용한 장기 비디오 이해
VideoDeepResearch: Long Video Understanding With Agentic Tool Using
June 12, 2025
저자: Huaying Yuan, Zheng Liu, Junjie Zhou, Ji-Rong Wen, Zhicheng Dou
cs.AI
초록
긴 비디오 이해(Long Video Understanding, LVU)는 작업의 본질적인 복잡성과 컨텍스트 윈도우 제약으로 인해 현재의 다중 모달 대형 언어 모델(Multi-modal Large Language Models, MLLMs)에게 상당한 도전 과제로 여겨집니다. 일반적으로 LVU 작업을 해결하기 위해서는 확장된 컨텍스트 윈도우, 강력한 시각 인식 능력, 그리고 숙련된 도메인 전문성을 갖춘 기반 MLLMs가 필요하다고 널리 알려져 있습니다. 본 연구에서는 이러한 일반적인 믿음에 도전하며, 긴 비디오 이해를 위한 새로운 에이전트 기반 프레임워크인 VideoDeepResearch를 소개합니다. 우리의 접근 방식은 텍스트 전용 대형 추론 모델(Large Reasoning Model, LRM)과 다중 모달 툴킷(다중 모달 검색기 및 시각 인식기 등)을 결합한 것으로, 이 모든 것은 실제로 쉽게 사용 가능합니다. 각 LVU 작업에 대해 시스템은 추론을 통해 문제 해결 전략을 수립하고, 도구 사용을 통해 필수적인 비디오 콘텐츠를 선택적으로 접근 및 활용합니다. 우리는 MLVU, Video-MME, LVBench 등 인기 있는 LVU 벤치마크에서 광범위한 실험을 수행했습니다. 실험 결과, VideoDeepResearch는 기존 MLLM 베이스라인을 크게 개선하며, 이전의 최첨단 기술을 MLVU(테스트), LVBench, LongVideoBench에서 각각 9.6%, 6.6%, 3.9% 앞섰습니다. 이러한 결과는 LVU 문제의 주요 과제를 극복하는 데 있어 에이전트 시스템의 잠재력을 강조합니다.
English
Long video understanding (LVU) presents a significant challenge for current
multi-modal large language models (MLLMs) due to the task's inherent complexity
and context window constraint. It is widely assumed that addressing LVU tasks
requires foundation MLLMs with extended context windows, strong visual
perception capabilities, and proficient domain expertise. In this work, we
challenge this common belief by introducing VideoDeepResearch, a novel agentic
framework for long video understanding. Our approach relies solely on a
text-only large reasoning model (LRM) combined with a modular multi-modal
toolkit, including multimodal retrievers and visual perceivers, all of which
are readily available in practice. For each LVU task, the system formulates a
problem-solving strategy through reasoning, while selectively accessing and
utilizing essential video content via tool using. We conduct extensive
experiments on popular LVU benchmarks, including MLVU, Video-MME, and LVBench.
Our results demonstrate that VideoDeepResearch achieves substantial
improvements over existing MLLM baselines, surpassing the previous
state-of-the-art by 9.6%, 6.6%, and 3.9% on MLVU (test), LVBench, and
LongVideoBench, respectively. These findings highlight the promise of agentic
systems in overcoming key challenges in LVU problems.