딥 비디오 디스커버리: 장편 비디오 이해를 위한 도구 활용 기반 에이전트 탐색
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding
May 23, 2025
저자: Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu
cs.AI
초록
장편 비디오 이해는 광범위한 시간-공간적 복잡성과 이러한 확장된 맥락에서의 질문 응답의 어려움으로 인해 상당한 도전 과제를 제시합니다. 대형 언어 모델(LLM)이 비디오 분석 능력과 긴 맥락 처리에서 상당한 발전을 보여주었지만, 정보가 밀집된 시간 단위의 비디오를 처리할 때는 여전히 한계를 보입니다. 이러한 한계를 극복하기 위해, 우리는 세분화된 비디오 클립에 대한 에이전트 탐색 전략을 활용하는 Deep Video Discovery(DVD) 에이전트를 제안합니다. 이전의 비디오 에이전트들이 수동으로 고정된 워크플로우를 설계한 것과 달리, 우리의 접근 방식은 에이전트의 자율성에 중점을 둡니다. 다중 세분화 비디오 데이터베이스에 대한 탐색 중심의 도구 세트를 제공함으로써, 우리의 DVD 에이전트는 LLM의 고급 추론 능력을 활용하여 현재 관찰 상태를 계획하고, 전략적으로 도구를 선택하며, 행동에 적합한 매개변수를 설정하고, 수집된 정보를 바탕으로 내부 추론을 반복적으로 개선합니다. 우리는 여러 장편 비디오 이해 벤치마크에 대한 포괄적인 평가를 수행하여 전체 시스템 설계의 우수성을 입증합니다. 우리의 DVD 에이전트는 도전적인 LVBench 데이터셋에서 이전 작업들을 큰 차이로 능가하며 SOTA 성능을 달성합니다. 또한, 포괄적인 절제 연구와 심층 도구 분석을 제공하여 장편 비디오 이해 작업에 맞춤화된 지능형 에이전트를 더욱 발전시키기 위한 통찰력을 제공합니다. 코드는 추후 공개될 예정입니다.
English
Long-form video understanding presents significant challenges due to
extensive temporal-spatial complexity and the difficulty of question answering
under such extended contexts. While Large Language Models (LLMs) have
demonstrated considerable advancements in video analysis capabilities and long
context handling, they continue to exhibit limitations when processing
information-dense hour-long videos. To overcome such limitations, we propose
the Deep Video Discovery agent to leverage an agentic search strategy over
segmented video clips. Different from previous video agents manually designing
a rigid workflow, our approach emphasizes the autonomous nature of agents. By
providing a set of search-centric tools on multi-granular video database, our
DVD agent leverages the advanced reasoning capability of LLM to plan on its
current observation state, strategically selects tools, formulates appropriate
parameters for actions, and iteratively refines its internal reasoning in light
of the gathered information. We perform comprehensive evaluation on multiple
long video understanding benchmarks that demonstrates the advantage of the
entire system design. Our DVD agent achieves SOTA performance, significantly
surpassing prior works by a large margin on the challenging LVBench dataset.
Comprehensive ablation studies and in-depth tool analyses are also provided,
yielding insights to further advance intelligent agents tailored for long-form
video understanding tasks. The code will be released later.