VideoAgent: Verstehen von Langformvideos mit einem großen Sprachmodell als Agent.
VideoAgent: Long-form Video Understanding with Large Language Model as Agent
March 15, 2024
Autoren: Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy
cs.AI
Zusammenfassung
Die Verarbeitung von Langvideos stellt eine bedeutende Herausforderung im Bereich der Computer Vision dar und erfordert ein Modell, das in der Lage ist, über lange multimodale Sequenzen zu argumentieren. Inspiriert vom menschlichen kognitiven Prozess für das Verständnis von Langvideos betonen wir interaktives Argumentieren und Planen über die Fähigkeit, umfangreiche visuelle Eingaben zu verarbeiten. Wir stellen ein neuartiges agentenbasiertes System, VideoAgent, vor, das ein großes Sprachmodell als zentralen Agenten einsetzt, um iterativ wichtige Informationen zur Beantwortung einer Frage zu identifizieren und zusammenzustellen, wobei Vision-Language-Grundlagenmodelle als Werkzeuge dienen, um visuelle Informationen zu übersetzen und abzurufen. Anhand der anspruchsvollen EgoSchema- und NExT-QA-Benchmarks erreicht VideoAgent eine Nullschussgenauigkeit von 54,1 % bzw. 71,3 %, wobei im Durchschnitt nur 8,4 bzw. 8,2 Frames verwendet werden. Diese Ergebnisse zeigen die überlegene Wirksamkeit und Effizienz unserer Methode im Vergleich zu den aktuellen State-of-the-Art-Methoden auf und heben das Potenzial agentenbasierter Ansätze zur Weiterentwicklung des Verständnisses von Langvideos hervor.
English
Long-form video understanding represents a significant challenge within
computer vision, demanding a model capable of reasoning over long multi-modal
sequences. Motivated by the human cognitive process for long-form video
understanding, we emphasize interactive reasoning and planning over the ability
to process lengthy visual inputs. We introduce a novel agent-based system,
VideoAgent, that employs a large language model as a central agent to
iteratively identify and compile crucial information to answer a question, with
vision-language foundation models serving as tools to translate and retrieve
visual information. Evaluated on the challenging EgoSchema and NExT-QA
benchmarks, VideoAgent achieves 54.1% and 71.3% zero-shot accuracy with only
8.4 and 8.2 frames used on average. These results demonstrate superior
effectiveness and efficiency of our method over the current state-of-the-art
methods, highlighting the potential of agent-based approaches in advancing
long-form video understanding.Summary
AI-Generated Summary