ChatPaper.aiChatPaper

VideoDeepResearch: Понимание длинных видео с использованием агентных инструментов

VideoDeepResearch: Long Video Understanding With Agentic Tool Using

June 12, 2025
Авторы: Huaying Yuan, Zheng Liu, Junjie Zhou, Ji-Rong Wen, Zhicheng Dou
cs.AI

Аннотация

Понимание длинных видео (Long Video Understanding, LVU) представляет собой значительную проблему для современных мультимодальных больших языковых моделей (MLLMs) из-за присущей задаче сложности и ограничений контекстного окна. Широко распространено мнение, что решение задач LVU требует базовых MLLMs с расширенными контекстными окнами, мощными возможностями визуального восприятия и глубокими знаниями в предметной области. В данной работе мы оспариваем это распространенное убеждение, представляя VideoDeepResearch — новый агентный фреймворк для понимания длинных видео. Наш подход основывается исключительно на текстовой модели большого рассуждения (LRM), объединенной с модульным мультимодальным инструментарием, включающим мультимодальные ретриверы и визуальные воспринимающие модули, все из которых доступны на практике. Для каждой задачи LVU система формирует стратегию решения проблемы через рассуждение, избирательно обращаясь к необходимому видеоконтенту и используя инструменты. Мы провели обширные эксперименты на популярных бенчмарках LVU, включая MLVU, Video-MME и LVBench. Наши результаты демонстрируют, что VideoDeepResearch достигает значительных улучшений по сравнению с существующими базовыми MLLMs, превосходя предыдущие достижения на 9,6%, 6,6% и 3,9% на MLVU (тест), LVBench и LongVideoBench соответственно. Эти результаты подчеркивают потенциал агентных систем в преодолении ключевых проблем в задачах LVU.
English
Long video understanding (LVU) presents a significant challenge for current multi-modal large language models (MLLMs) due to the task's inherent complexity and context window constraint. It is widely assumed that addressing LVU tasks requires foundation MLLMs with extended context windows, strong visual perception capabilities, and proficient domain expertise. In this work, we challenge this common belief by introducing VideoDeepResearch, a novel agentic framework for long video understanding. Our approach relies solely on a text-only large reasoning model (LRM) combined with a modular multi-modal toolkit, including multimodal retrievers and visual perceivers, all of which are readily available in practice. For each LVU task, the system formulates a problem-solving strategy through reasoning, while selectively accessing and utilizing essential video content via tool using. We conduct extensive experiments on popular LVU benchmarks, including MLVU, Video-MME, and LVBench. Our results demonstrate that VideoDeepResearch achieves substantial improvements over existing MLLM baselines, surpassing the previous state-of-the-art by 9.6%, 6.6%, and 3.9% on MLVU (test), LVBench, and LongVideoBench, respectively. These findings highlight the promise of agentic systems in overcoming key challenges in LVU problems.
PDF122June 13, 2025