ChatPaper.aiChatPaper

Глубокое исследование видео: Агентный поиск с использованием инструментов для понимания длинных видеоматериалов

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

May 23, 2025
Авторы: Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu
cs.AI

Аннотация

Понимание длинных видеороликов представляет значительные трудности из-за обширной временно-пространственной сложности и сложности ответов на вопросы в таких продолжительных контекстах. Хотя крупные языковые модели (LLM) продемонстрировали значительный прогресс в возможностях анализа видео и обработки длинных контекстов, они продолжают проявлять ограничения при обработке насыщенных информацией часовых видеороликов. Чтобы преодолеть эти ограничения, мы предлагаем агента Deep Video Discovery, который использует стратегию агентского поиска по сегментированным видеоклипам. В отличие от предыдущих видеоагентов, вручную проектирующих жесткий рабочий процесс, наш подход подчеркивает автономную природу агентов. Предоставляя набор инструментов, ориентированных на поиск, в многоуровневой видеобазе данных, наш агент DVD использует продвинутые способности рассуждения LLM для планирования на основе текущего состояния наблюдения, стратегического выбора инструментов, формулирования подходящих параметров для действий и итеративного уточнения внутренних рассуждений на основе собранной информации. Мы проводим всестороннюю оценку на нескольких бенчмарках для понимания длинных видеороликов, что демонстрирует преимущества всей системы. Наш агент DVD достигает наилучших результатов (SOTA), значительно превосходя предыдущие работы с большим отрывом на сложном наборе данных LVBench. Также представлены всесторонние исследования с исключением компонентов и глубокий анализ инструментов, что дает идеи для дальнейшего развития интеллектуальных агентов, адаптированных для задач понимания длинных видеороликов. Код будет опубликован позже.
English
Long-form video understanding presents significant challenges due to extensive temporal-spatial complexity and the difficulty of question answering under such extended contexts. While Large Language Models (LLMs) have demonstrated considerable advancements in video analysis capabilities and long context handling, they continue to exhibit limitations when processing information-dense hour-long videos. To overcome such limitations, we propose the Deep Video Discovery agent to leverage an agentic search strategy over segmented video clips. Different from previous video agents manually designing a rigid workflow, our approach emphasizes the autonomous nature of agents. By providing a set of search-centric tools on multi-granular video database, our DVD agent leverages the advanced reasoning capability of LLM to plan on its current observation state, strategically selects tools, formulates appropriate parameters for actions, and iteratively refines its internal reasoning in light of the gathered information. We perform comprehensive evaluation on multiple long video understanding benchmarks that demonstrates the advantage of the entire system design. Our DVD agent achieves SOTA performance, significantly surpassing prior works by a large margin on the challenging LVBench dataset. Comprehensive ablation studies and in-depth tool analyses are also provided, yielding insights to further advance intelligent agents tailored for long-form video understanding tasks. The code will be released later.
PDF32June 4, 2025