ChatPaper.aiChatPaper

Deep Video Discovery: Ricerca Agente con Utilizzo di Strumenti per la Comprensione di Video di Lunga Durata

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

May 23, 2025
Autori: Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu
cs.AI

Abstract

La comprensione di video di lunga durata presenta sfide significative a causa dell'estesa complessità spazio-temporale e della difficoltà di rispondere a domande in contesti così estesi. Sebbene i Modelli Linguistici di Grande Dimensione (LLM) abbiano dimostrato notevoli progressi nelle capacità di analisi video e nella gestione di contesti lunghi, continuano a mostrare limitazioni quando elaborano video densi di informazioni della durata di un'ora. Per superare tali limitazioni, proponiamo l'agente Deep Video Discovery (DVD) per sfruttare una strategia di ricerca agentica su clip video segmentati. A differenza dei precedenti agenti video che progettavano manualmente un flusso di lavoro rigido, il nostro approccio enfatizza la natura autonoma degli agenti. Fornendo un insieme di strumenti incentrati sulla ricerca su un database video multi-granulare, il nostro agente DVD sfrutta la capacità di ragionamento avanzata dell'LLM per pianificare in base al suo stato di osservazione corrente, selezionare strategicamente gli strumenti, formulare parametri appropriati per le azioni e affinare iterativamente il proprio ragionamento interno alla luce delle informazioni raccolte. Eseguiamo una valutazione completa su più benchmark di comprensione di video lunghi che dimostra il vantaggio dell'intero design del sistema. Il nostro agente DVD raggiunge prestazioni all'avanguardia, superando significativamente i lavori precedenti con un ampio margine sul complesso dataset LVBench. Sono inoltre forniti studi di ablazione completi e analisi approfondite degli strumenti, offrendo spunti per avanzare ulteriormente gli agenti intelligenti progettati per compiti di comprensione di video di lunga durata. Il codice verrà rilasciato in seguito.
English
Long-form video understanding presents significant challenges due to extensive temporal-spatial complexity and the difficulty of question answering under such extended contexts. While Large Language Models (LLMs) have demonstrated considerable advancements in video analysis capabilities and long context handling, they continue to exhibit limitations when processing information-dense hour-long videos. To overcome such limitations, we propose the Deep Video Discovery agent to leverage an agentic search strategy over segmented video clips. Different from previous video agents manually designing a rigid workflow, our approach emphasizes the autonomous nature of agents. By providing a set of search-centric tools on multi-granular video database, our DVD agent leverages the advanced reasoning capability of LLM to plan on its current observation state, strategically selects tools, formulates appropriate parameters for actions, and iteratively refines its internal reasoning in light of the gathered information. We perform comprehensive evaluation on multiple long video understanding benchmarks that demonstrates the advantage of the entire system design. Our DVD agent achieves SOTA performance, significantly surpassing prior works by a large margin on the challenging LVBench dataset. Comprehensive ablation studies and in-depth tool analyses are also provided, yielding insights to further advance intelligent agents tailored for long-form video understanding tasks. The code will be released later.
PDF42June 4, 2025