Découverte approfondie de vidéos : Recherche agentive avec utilisation d'outils pour la compréhension de vidéos longues
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding
May 23, 2025
Auteurs: Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu
cs.AI
Résumé
La compréhension des vidéos longues présente des défis importants en raison de la complexité temporelle-spatiale étendue et de la difficulté à répondre à des questions dans de tels contextes prolongés. Bien que les modèles de langage de grande taille (LLMs) aient démontré des avancées considérables dans les capacités d'analyse vidéo et la gestion de contextes longs, ils continuent de présenter des limites lors du traitement de vidéos d'une heure riches en informations. Pour surmonter ces limitations, nous proposons l'agent Deep Video Discovery, qui exploite une stratégie de recherche agentique sur des clips vidéo segmentés. Contrairement aux agents vidéo précédents qui concevaient manuellement un flux de travail rigide, notre approche met l'accent sur la nature autonome des agents. En fournissant un ensemble d'outils centrés sur la recherche dans une base de données vidéo multi-granulaire, notre agent DVD exploite la capacité de raisonnement avancée du LLM pour planifier en fonction de son état d'observation actuel, sélectionne stratégiquement des outils, formule des paramètres appropriés pour les actions, et affine itérativement son raisonnement interne à la lumière des informations recueillies. Nous effectuons une évaluation approfondie sur plusieurs benchmarks de compréhension de vidéos longues, démontrant l'avantage de la conception globale du système. Notre agent DVD atteint des performances de pointe, surpassant significativement les travaux précédents avec une large marge sur le dataset difficile LVBench. Des études d'ablation complètes et des analyses approfondies des outils sont également fournies, offrant des insights pour faire progresser davantage les agents intelligents adaptés aux tâches de compréhension de vidéos longues. Le code sera publié ultérieurement.
English
Long-form video understanding presents significant challenges due to
extensive temporal-spatial complexity and the difficulty of question answering
under such extended contexts. While Large Language Models (LLMs) have
demonstrated considerable advancements in video analysis capabilities and long
context handling, they continue to exhibit limitations when processing
information-dense hour-long videos. To overcome such limitations, we propose
the Deep Video Discovery agent to leverage an agentic search strategy over
segmented video clips. Different from previous video agents manually designing
a rigid workflow, our approach emphasizes the autonomous nature of agents. By
providing a set of search-centric tools on multi-granular video database, our
DVD agent leverages the advanced reasoning capability of LLM to plan on its
current observation state, strategically selects tools, formulates appropriate
parameters for actions, and iteratively refines its internal reasoning in light
of the gathered information. We perform comprehensive evaluation on multiple
long video understanding benchmarks that demonstrates the advantage of the
entire system design. Our DVD agent achieves SOTA performance, significantly
surpassing prior works by a large margin on the challenging LVBench dataset.
Comprehensive ablation studies and in-depth tool analyses are also provided,
yielding insights to further advance intelligent agents tailored for long-form
video understanding tasks. The code will be released later.