ChatPaper.aiChatPaper

Descoberta Profunda em Vídeos: Busca Autônoma com Uso de Ferramentas para Compreensão de Vídeos de Longa Duração

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

May 23, 2025
Autores: Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu
cs.AI

Resumo

A compreensão de vídeos de longa duração apresenta desafios significativos devido à complexidade temporal-espacial extensa e à dificuldade de responder a perguntas em contextos tão prolongados. Embora os Modelos de Linguagem de Grande Escala (LLMs) tenham demonstrado avanços consideráveis nas capacidades de análise de vídeo e no manuseio de contextos longos, eles continuam a exibir limitações ao processar vídeos de uma hora densos em informações. Para superar essas limitações, propomos o agente Deep Video Discovery (DVD) para aproveitar uma estratégia de busca agentica sobre clipes de vídeo segmentados. Diferente de agentes de vídeo anteriores que projetavam manualmente um fluxo de trabalho rígido, nossa abordagem enfatiza a natureza autônoma dos agentes. Ao fornecer um conjunto de ferramentas centradas em busca em um banco de dados de vídeo multi-granular, nosso agente DVD aproveita a capacidade avançada de raciocínio do LLM para planejar com base em seu estado de observação atual, selecionar estrategicamente ferramentas, formular parâmetros apropriados para ações e refinar iterativamente seu raciocínio interno à luz das informações coletadas. Realizamos uma avaliação abrangente em vários benchmarks de compreensão de vídeos longos que demonstram a vantagem do design do sistema como um todo. Nosso agente DVD alcança desempenho de estado da arte (SOTA), superando significativamente trabalhos anteriores por uma grande margem no desafiador conjunto de dados LVBench. Estudos abrangentes de ablação e análises aprofundadas de ferramentas também são fornecidos, oferecendo insights para avançar ainda mais agentes inteligentes adaptados para tarefas de compreensão de vídeos de longa duração. O código será lançado posteriormente.
English
Long-form video understanding presents significant challenges due to extensive temporal-spatial complexity and the difficulty of question answering under such extended contexts. While Large Language Models (LLMs) have demonstrated considerable advancements in video analysis capabilities and long context handling, they continue to exhibit limitations when processing information-dense hour-long videos. To overcome such limitations, we propose the Deep Video Discovery agent to leverage an agentic search strategy over segmented video clips. Different from previous video agents manually designing a rigid workflow, our approach emphasizes the autonomous nature of agents. By providing a set of search-centric tools on multi-granular video database, our DVD agent leverages the advanced reasoning capability of LLM to plan on its current observation state, strategically selects tools, formulates appropriate parameters for actions, and iteratively refines its internal reasoning in light of the gathered information. We perform comprehensive evaluation on multiple long video understanding benchmarks that demonstrates the advantage of the entire system design. Our DVD agent achieves SOTA performance, significantly surpassing prior works by a large margin on the challenging LVBench dataset. Comprehensive ablation studies and in-depth tool analyses are also provided, yielding insights to further advance intelligent agents tailored for long-form video understanding tasks. The code will be released later.
PDF42June 4, 2025