ChatPaper.aiChatPaper

VideoAgent: Verstehen von Langformvideos mit einem großen Sprachmodell als Agent.

VideoAgent: Long-form Video Understanding with Large Language Model as Agent

March 15, 2024
Autoren: Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy
cs.AI

Zusammenfassung

Die Verarbeitung von Langvideos stellt eine bedeutende Herausforderung im Bereich der Computer Vision dar und erfordert ein Modell, das in der Lage ist, über lange multimodale Sequenzen zu argumentieren. Inspiriert vom menschlichen kognitiven Prozess für das Verständnis von Langvideos betonen wir interaktives Argumentieren und Planen über die Fähigkeit, umfangreiche visuelle Eingaben zu verarbeiten. Wir stellen ein neuartiges agentenbasiertes System, VideoAgent, vor, das ein großes Sprachmodell als zentralen Agenten einsetzt, um iterativ wichtige Informationen zur Beantwortung einer Frage zu identifizieren und zusammenzustellen, wobei Vision-Language-Grundlagenmodelle als Werkzeuge dienen, um visuelle Informationen zu übersetzen und abzurufen. Anhand der anspruchsvollen EgoSchema- und NExT-QA-Benchmarks erreicht VideoAgent eine Nullschussgenauigkeit von 54,1 % bzw. 71,3 %, wobei im Durchschnitt nur 8,4 bzw. 8,2 Frames verwendet werden. Diese Ergebnisse zeigen die überlegene Wirksamkeit und Effizienz unserer Methode im Vergleich zu den aktuellen State-of-the-Art-Methoden auf und heben das Potenzial agentenbasierter Ansätze zur Weiterentwicklung des Verständnisses von Langvideos hervor.
English
Long-form video understanding represents a significant challenge within computer vision, demanding a model capable of reasoning over long multi-modal sequences. Motivated by the human cognitive process for long-form video understanding, we emphasize interactive reasoning and planning over the ability to process lengthy visual inputs. We introduce a novel agent-based system, VideoAgent, that employs a large language model as a central agent to iteratively identify and compile crucial information to answer a question, with vision-language foundation models serving as tools to translate and retrieve visual information. Evaluated on the challenging EgoSchema and NExT-QA benchmarks, VideoAgent achieves 54.1% and 71.3% zero-shot accuracy with only 8.4 and 8.2 frames used on average. These results demonstrate superior effectiveness and efficiency of our method over the current state-of-the-art methods, highlighting the potential of agent-based approaches in advancing long-form video understanding.

Summary

AI-Generated Summary

PDF362December 15, 2024