ChatPaper.aiChatPaper

Deep Video Discovery: Agentisch Zoeken met Gereedschapsgebruik voor Langdurige Video-begrip

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

May 23, 2025
Auteurs: Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu
cs.AI

Samenvatting

Het begrijpen van lange video's brengt aanzienlijke uitdagingen met zich mee vanwege de uitgebreide temporeel-ruimtelijke complexiteit en de moeilijkheid van vraag-antwoordtaken in dergelijke uitgebreide contexten. Hoewel Large Language Models (LLMs) aanzienlijke vooruitgang hebben geboekt in videanalysecapaciteiten en het omgaan met lange contexten, blijven ze beperkingen vertonen bij het verwerken van informatie-intensieve video's van een uur. Om deze beperkingen te overwinnen, stellen we de Deep Video Discovery-agent voor, die gebruikmaakt van een agentische zoekstrategie over gesegmenteerde videoclips. In tegenstelling tot eerdere video-agents die een rigide workflow handmatig ontwerpen, benadrukt onze aanpak de autonome aard van agents. Door een set zoekgerichte tools te bieden op een multi-granulaire videodatabase, maakt onze DVD-agent gebruik van de geavanceerde redeneercapaciteit van LLM om te plannen op basis van de huidige observatiestatus, strategisch tools te selecteren, geschikte parameters voor acties te formuleren en de interne redenering iteratief te verfijnen in het licht van de verzamelde informatie. We voeren een uitgebreide evaluatie uit op meerdere benchmarks voor het begrijpen van lange video's, wat het voordeel van het gehele systeemontwerp aantoont. Onze DVD-agent behaalt SOTA-prestaties en overtreft eerdere werken aanzienlijk op de uitdagende LVBench-dataset. Uitgebreide ablatiestudies en diepgaande toolanalyses worden ook geboden, wat inzichten oplevert om intelligente agents verder te ontwikkelen die zijn afgestemd op taken voor het begrijpen van lange video's. De code zal later worden vrijgegeven.
English
Long-form video understanding presents significant challenges due to extensive temporal-spatial complexity and the difficulty of question answering under such extended contexts. While Large Language Models (LLMs) have demonstrated considerable advancements in video analysis capabilities and long context handling, they continue to exhibit limitations when processing information-dense hour-long videos. To overcome such limitations, we propose the Deep Video Discovery agent to leverage an agentic search strategy over segmented video clips. Different from previous video agents manually designing a rigid workflow, our approach emphasizes the autonomous nature of agents. By providing a set of search-centric tools on multi-granular video database, our DVD agent leverages the advanced reasoning capability of LLM to plan on its current observation state, strategically selects tools, formulates appropriate parameters for actions, and iteratively refines its internal reasoning in light of the gathered information. We perform comprehensive evaluation on multiple long video understanding benchmarks that demonstrates the advantage of the entire system design. Our DVD agent achieves SOTA performance, significantly surpassing prior works by a large margin on the challenging LVBench dataset. Comprehensive ablation studies and in-depth tool analyses are also provided, yielding insights to further advance intelligent agents tailored for long-form video understanding tasks. The code will be released later.
PDF42June 4, 2025