VideoDeepResearch: Langdurige Video-interpretatie met behulp van agentische tools

Samenvatting

Lang video begrip (LVU) vormt een aanzienlijke uitdaging voor huidige multi-modale grote taalmodellen (MLLMs) vanwege de inherente complexiteit van de taak en de beperkingen van het contextvenster. Er wordt algemeen aangenomen dat het aanpakken van LVU-taken foundation MLLMs vereist met uitgebreide contextvensters, sterke visuele waarnemingscapaciteiten en deskundige domeinkennis. In dit werk dagen we deze gangbare opvatting uit door VideoDeepResearch te introduceren, een nieuw agent-gebaseerd framework voor lang video begrip. Onze aanpak maakt uitsluitend gebruik van een tekst-gebaseerd groot redeneermodel (LRM) in combinatie met een modulair multi-modale toolkit, waaronder multi-modale retrievers en visuele waarnemers, die allemaal praktisch beschikbaar zijn. Voor elke LVU-taak formuleert het systeem een probleemoplossende strategie door middel van redenering, terwijl het selectief essentiële video-inhoud benadert en gebruikt via toolgebruik. We voeren uitgebreide experimenten uit op populaire LVU-benchmarks, waaronder MLVU, Video-MME en LVBench. Onze resultaten tonen aan dat VideoDeepResearch aanzienlijke verbeteringen behaalt ten opzichte van bestaande MLLM-baselines, en de vorige state-of-the-art overtreft met 9,6%, 6,6% en 3,9% op respectievelijk MLVU (test), LVBench en LongVideoBench. Deze bevindingen onderstrepen de belofte van agent-gebaseerde systemen bij het overwinnen van belangrijke uitdagingen in LVU-problemen.

English

Long video understanding (LVU) presents a significant challenge for current multi-modal large language models (MLLMs) due to the task's inherent complexity and context window constraint. It is widely assumed that addressing LVU tasks requires foundation MLLMs with extended context windows, strong visual perception capabilities, and proficient domain expertise. In this work, we challenge this common belief by introducing VideoDeepResearch, a novel agentic framework for long video understanding. Our approach relies solely on a text-only large reasoning model (LRM) combined with a modular multi-modal toolkit, including multimodal retrievers and visual perceivers, all of which are readily available in practice. For each LVU task, the system formulates a problem-solving strategy through reasoning, while selectively accessing and utilizing essential video content via tool using. We conduct extensive experiments on popular LVU benchmarks, including MLVU, Video-MME, and LVBench. Our results demonstrate that VideoDeepResearch achieves substantial improvements over existing MLLM baselines, surpassing the previous state-of-the-art by 9.6%, 6.6%, and 3.9% on MLVU (test), LVBench, and LongVideoBench, respectively. These findings highlight the promise of agentic systems in overcoming key challenges in LVU problems.

VideoDeepResearch: Langdurige Video-interpretatie met behulp van agentische tools

VideoDeepResearch: Long Video Understanding With Agentic Tool Using

Samenvatting

Support