VideoDeepResearch: Comprensione di Video Lunghi con l'Utilizzo di Strumenti Agenti
VideoDeepResearch: Long Video Understanding With Agentic Tool Using
June 12, 2025
Autori: Huaying Yuan, Zheng Liu, Junjie Zhou, Ji-Rong Wen, Zhicheng Dou
cs.AI
Abstract
La comprensione di video lunghi (Long Video Understanding, LVU) rappresenta una sfida significativa per gli attuali modelli linguistici multimodali di grandi dimensioni (Multi-modal Large Language Models, MLLMs) a causa della complessità intrinseca del compito e dei vincoli legati alla finestra contestuale. Si ritiene comunemente che affrontare i compiti di LVU richieda MLLMs di base con finestre contestuali estese, forti capacità di percezione visiva e una competenza avanzata nel dominio specifico. In questo lavoro, mettiamo in discussione questa convinzione comune introducendo VideoDeepResearch, un nuovo framework agentico per la comprensione di video lunghi. Il nostro approccio si basa esclusivamente su un modello di ragionamento di grandi dimensioni (Large Reasoning Model, LRM) basato solo su testo, combinato con un toolkit multimodale modulare, che include strumenti di recupero multimodale e percezione visiva, tutti facilmente disponibili nella pratica. Per ogni compito di LVU, il sistema formula una strategia di risoluzione dei problemi attraverso il ragionamento, accedendo e utilizzando selettivamente i contenuti video essenziali tramite l'uso di strumenti. Abbiamo condotto esperimenti estesi su benchmark LVU popolari, tra cui MLVU, Video-MME e LVBench. I nostri risultati dimostrano che VideoDeepResearch ottiene miglioramenti sostanziali rispetto ai baseline MLLM esistenti, superando lo stato dell'arte precedente del 9,6%, 6,6% e 3,9% rispettivamente su MLVU (test), LVBench e LongVideoBench. Questi risultati evidenziano il potenziale dei sistemi agentici nel superare le principali sfide nei problemi di LVU.
English
Long video understanding (LVU) presents a significant challenge for current
multi-modal large language models (MLLMs) due to the task's inherent complexity
and context window constraint. It is widely assumed that addressing LVU tasks
requires foundation MLLMs with extended context windows, strong visual
perception capabilities, and proficient domain expertise. In this work, we
challenge this common belief by introducing VideoDeepResearch, a novel agentic
framework for long video understanding. Our approach relies solely on a
text-only large reasoning model (LRM) combined with a modular multi-modal
toolkit, including multimodal retrievers and visual perceivers, all of which
are readily available in practice. For each LVU task, the system formulates a
problem-solving strategy through reasoning, while selectively accessing and
utilizing essential video content via tool using. We conduct extensive
experiments on popular LVU benchmarks, including MLVU, Video-MME, and LVBench.
Our results demonstrate that VideoDeepResearch achieves substantial
improvements over existing MLLM baselines, surpassing the previous
state-of-the-art by 9.6%, 6.6%, and 3.9% on MLVU (test), LVBench, and
LongVideoBench, respectively. These findings highlight the promise of agentic
systems in overcoming key challenges in LVU problems.