VideoDeepResearch: Langzeit-Videoverständnis mit agentenbasierten Werkzeugen
VideoDeepResearch: Long Video Understanding With Agentic Tool Using
June 12, 2025
papers.authors: Huaying Yuan, Zheng Liu, Junjie Zhou, Ji-Rong Wen, Zhicheng Dou
cs.AI
papers.abstract
Das Verständnis langer Videos (Long Video Understanding, LVU) stellt eine erhebliche Herausforderung für aktuelle multimodale große Sprachmodelle (Multi-Modal Large Language Models, MLLMs) dar, bedingt durch die inhärente Komplexität der Aufgabe und die Beschränkungen des Kontextfensters. Es wird allgemein angenommen, dass die Bewältigung von LVU-Aufgaben MLLMs mit erweiterten Kontextfenstern, starken visuellen Wahrnehmungsfähigkeiten und fundiertem Domänenwissen erfordert. In dieser Arbeit stellen wir diese verbreitete Annahme in Frage, indem wir VideoDeepResearch vorstellen, ein neuartiges agentenbasiertes Framework für das Verständnis langer Videos. Unser Ansatz stützt sich ausschließlich auf ein textbasiertes großes Reasoning-Modell (Large Reasoning Model, LRM) in Kombination mit einem modularen multimodalen Toolkit, das multimodale Retriever und visuelle Perceiver umfasst, die in der Praxis leicht verfügbar sind. Für jede LVU-Aufgabe formuliert das System eine Problemlösungsstrategie durch Reasoning, während es selektiv auf wesentliche Videoinhalte zugreift und diese durch den Einsatz von Tools nutzt. Wir führen umfangreiche Experimente auf gängigen LVU-Benchmarks durch, darunter MLVU, Video-MME und LVBench. Unsere Ergebnisse zeigen, dass VideoDeepResearch erhebliche Verbesserungen gegenüber bestehenden MLLM-Baselines erzielt und den bisherigen State-of-the-Art um 9,6 %, 6,6 % bzw. 3,9 % auf MLVU (Test), LVBench und LongVideoBench übertrifft. Diese Ergebnisse unterstreichen das Potenzial agentenbasierter Systeme, zentrale Herausforderungen bei LVU-Problemen zu bewältigen.
English
Long video understanding (LVU) presents a significant challenge for current
multi-modal large language models (MLLMs) due to the task's inherent complexity
and context window constraint. It is widely assumed that addressing LVU tasks
requires foundation MLLMs with extended context windows, strong visual
perception capabilities, and proficient domain expertise. In this work, we
challenge this common belief by introducing VideoDeepResearch, a novel agentic
framework for long video understanding. Our approach relies solely on a
text-only large reasoning model (LRM) combined with a modular multi-modal
toolkit, including multimodal retrievers and visual perceivers, all of which
are readily available in practice. For each LVU task, the system formulates a
problem-solving strategy through reasoning, while selectively accessing and
utilizing essential video content via tool using. We conduct extensive
experiments on popular LVU benchmarks, including MLVU, Video-MME, and LVBench.
Our results demonstrate that VideoDeepResearch achieves substantial
improvements over existing MLLM baselines, surpassing the previous
state-of-the-art by 9.6%, 6.6%, and 3.9% on MLVU (test), LVBench, and
LongVideoBench, respectively. These findings highlight the promise of agentic
systems in overcoming key challenges in LVU problems.