ChatPaper.aiChatPaper

VideoDeepResearch : Compréhension des vidéos longues avec utilisation d'outils agentiques

VideoDeepResearch: Long Video Understanding With Agentic Tool Using

June 12, 2025
Auteurs: Huaying Yuan, Zheng Liu, Junjie Zhou, Ji-Rong Wen, Zhicheng Dou
cs.AI

Résumé

La compréhension de vidéos longues (Long Video Understanding, LVU) représente un défi majeur pour les modèles de langage multi-modaux de grande envergure (Multi-modal Large Language Models, MLLMs) en raison de la complexité inhérente à la tâche et des contraintes liées à la fenêtre contextuelle. Il est largement admis que la résolution des tâches LVU nécessite des MLLMs de base dotés de fenêtres contextuelles étendues, de solides capacités de perception visuelle et d'une expertise approfondie dans le domaine. Dans ce travail, nous remettons en question cette croyance commune en introduisant VideoDeepResearch, un nouveau cadre agentique pour la compréhension de vidéos longues. Notre approche repose uniquement sur un modèle de raisonnement de grande envergure (Large Reasoning Model, LRM) textuel, combiné à une boîte à outils multi-modulaire comprenant des récupérateurs multi-modaux et des perceveurs visuels, tous facilement disponibles en pratique. Pour chaque tâche LVU, le système élabore une stratégie de résolution de problèmes par le raisonnement, tout en accédant et en utilisant de manière sélective le contenu vidéo essentiel via l'utilisation d'outils. Nous menons des expériences approfondies sur des benchmarks LVU populaires, notamment MLVU, Video-MME et LVBench. Nos résultats démontrent que VideoDeepResearch réalise des améliorations substantielles par rapport aux MLLMs de référence existants, surpassant l'état de l'art précédent de 9,6 %, 6,6 % et 3,9 % sur MLVU (test), LVBench et LongVideoBench, respectivement. Ces résultats mettent en lumière le potentiel des systèmes agentiques pour surmonter les principaux défis des problèmes LVU.
English
Long video understanding (LVU) presents a significant challenge for current multi-modal large language models (MLLMs) due to the task's inherent complexity and context window constraint. It is widely assumed that addressing LVU tasks requires foundation MLLMs with extended context windows, strong visual perception capabilities, and proficient domain expertise. In this work, we challenge this common belief by introducing VideoDeepResearch, a novel agentic framework for long video understanding. Our approach relies solely on a text-only large reasoning model (LRM) combined with a modular multi-modal toolkit, including multimodal retrievers and visual perceivers, all of which are readily available in practice. For each LVU task, the system formulates a problem-solving strategy through reasoning, while selectively accessing and utilizing essential video content via tool using. We conduct extensive experiments on popular LVU benchmarks, including MLVU, Video-MME, and LVBench. Our results demonstrate that VideoDeepResearch achieves substantial improvements over existing MLLM baselines, surpassing the previous state-of-the-art by 9.6%, 6.6%, and 3.9% on MLVU (test), LVBench, and LongVideoBench, respectively. These findings highlight the promise of agentic systems in overcoming key challenges in LVU problems.
PDF132June 13, 2025