VideoDeepResearch: Langdurige Video-interpretatie met behulp van agentische tools
VideoDeepResearch: Long Video Understanding With Agentic Tool Using
June 12, 2025
Auteurs: Huaying Yuan, Zheng Liu, Junjie Zhou, Ji-Rong Wen, Zhicheng Dou
cs.AI
Samenvatting
Lang video begrip (LVU) vormt een aanzienlijke uitdaging voor huidige multi-modale grote taalmodellen (MLLMs) vanwege de inherente complexiteit van de taak en de beperkingen van het contextvenster. Er wordt algemeen aangenomen dat het aanpakken van LVU-taken foundation MLLMs vereist met uitgebreide contextvensters, sterke visuele waarnemingscapaciteiten en deskundige domeinkennis. In dit werk dagen we deze gangbare opvatting uit door VideoDeepResearch te introduceren, een nieuw agent-gebaseerd framework voor lang video begrip. Onze aanpak maakt uitsluitend gebruik van een tekst-gebaseerd groot redeneermodel (LRM) in combinatie met een modulair multi-modale toolkit, waaronder multi-modale retrievers en visuele waarnemers, die allemaal praktisch beschikbaar zijn. Voor elke LVU-taak formuleert het systeem een probleemoplossende strategie door middel van redenering, terwijl het selectief essentiële video-inhoud benadert en gebruikt via toolgebruik. We voeren uitgebreide experimenten uit op populaire LVU-benchmarks, waaronder MLVU, Video-MME en LVBench. Onze resultaten tonen aan dat VideoDeepResearch aanzienlijke verbeteringen behaalt ten opzichte van bestaande MLLM-baselines, en de vorige state-of-the-art overtreft met 9,6%, 6,6% en 3,9% op respectievelijk MLVU (test), LVBench en LongVideoBench. Deze bevindingen onderstrepen de belofte van agent-gebaseerde systemen bij het overwinnen van belangrijke uitdagingen in LVU-problemen.
English
Long video understanding (LVU) presents a significant challenge for current
multi-modal large language models (MLLMs) due to the task's inherent complexity
and context window constraint. It is widely assumed that addressing LVU tasks
requires foundation MLLMs with extended context windows, strong visual
perception capabilities, and proficient domain expertise. In this work, we
challenge this common belief by introducing VideoDeepResearch, a novel agentic
framework for long video understanding. Our approach relies solely on a
text-only large reasoning model (LRM) combined with a modular multi-modal
toolkit, including multimodal retrievers and visual perceivers, all of which
are readily available in practice. For each LVU task, the system formulates a
problem-solving strategy through reasoning, while selectively accessing and
utilizing essential video content via tool using. We conduct extensive
experiments on popular LVU benchmarks, including MLVU, Video-MME, and LVBench.
Our results demonstrate that VideoDeepResearch achieves substantial
improvements over existing MLLM baselines, surpassing the previous
state-of-the-art by 9.6%, 6.6%, and 3.9% on MLVU (test), LVBench, and
LongVideoBench, respectively. These findings highlight the promise of agentic
systems in overcoming key challenges in LVU problems.