ChatPaper.aiChatPaper

VideoDeepResearch: Compreensão de Vídeos Longos com Uso de Ferramentas Agentes

VideoDeepResearch: Long Video Understanding With Agentic Tool Using

June 12, 2025
Autores: Huaying Yuan, Zheng Liu, Junjie Zhou, Ji-Rong Wen, Zhicheng Dou
cs.AI

Resumo

A compreensão de vídeos longos (LVU) representa um desafio significativo para os atuais modelos de linguagem multimodal de grande escala (MLLMs) devido à complexidade inerente da tarefa e às limitações da janela de contexto. É amplamente assumido que abordar tarefas de LVU requer MLLMs fundamentais com janelas de contexto estendidas, capacidades robustas de percepção visual e proficiência em expertise de domínio. Neste trabalho, questionamos essa crença comum ao introduzir o VideoDeepResearch, uma nova estrutura agentiva para a compreensão de vídeos longos. Nossa abordagem depende exclusivamente de um modelo de raciocínio de grande escala (LRM) baseado apenas em texto, combinado com um kit de ferramentas multimodais modular, incluindo recuperadores multimodais e perceptores visuais, todos amplamente disponíveis na prática. Para cada tarefa de LVU, o sistema formula uma estratégia de resolução de problemas por meio de raciocínio, enquanto acessa e utiliza seletivamente o conteúdo essencial do vídeo por meio do uso de ferramentas. Realizamos experimentos extensos em benchmarks populares de LVU, incluindo MLVU, Video-MME e LVBench. Nossos resultados demonstram que o VideoDeepResearch alcança melhorias substanciais em relação às linhas de base MLLM existentes, superando o estado da arte anterior em 9,6%, 6,6% e 3,9% no MLVU (teste), LVBench e LongVideoBench, respectivamente. Essas descobertas destacam o potencial dos sistemas agentivos para superar desafios-chave em problemas de LVU.
English
Long video understanding (LVU) presents a significant challenge for current multi-modal large language models (MLLMs) due to the task's inherent complexity and context window constraint. It is widely assumed that addressing LVU tasks requires foundation MLLMs with extended context windows, strong visual perception capabilities, and proficient domain expertise. In this work, we challenge this common belief by introducing VideoDeepResearch, a novel agentic framework for long video understanding. Our approach relies solely on a text-only large reasoning model (LRM) combined with a modular multi-modal toolkit, including multimodal retrievers and visual perceivers, all of which are readily available in practice. For each LVU task, the system formulates a problem-solving strategy through reasoning, while selectively accessing and utilizing essential video content via tool using. We conduct extensive experiments on popular LVU benchmarks, including MLVU, Video-MME, and LVBench. Our results demonstrate that VideoDeepResearch achieves substantial improvements over existing MLLM baselines, surpassing the previous state-of-the-art by 9.6%, 6.6%, and 3.9% on MLVU (test), LVBench, and LongVideoBench, respectively. These findings highlight the promise of agentic systems in overcoming key challenges in LVU problems.
PDF142June 13, 2025