VideoAgent: Ein multimodaler Agent mit Gedächtniserweiterung für das Verstehen von Videos
VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding
March 18, 2024
Autoren: Yue Fan, Xiaojian Ma, Rujie Wu, Yuntao Du, Jiaqi Li, Zhi Gao, Qing Li
cs.AI
Zusammenfassung
Wir untersuchen, wie das Zusammenführen mehrerer Grundlagenmodelle (große Sprachmodelle und Bildsprachmodelle) mit einem neuartigen vereinheitlichten Speichermechanismus das anspruchsvolle Problem des Videoverständnisses bewältigen könnte, insbesondere das Erfassen der langfristigen zeitlichen Beziehungen in umfangreichen Videos. Insbesondere konstruiert der vorgeschlagene multimodale Agent VideoAgent: 1) einen strukturierten Speicher, um sowohl die generischen zeitlichen Ereignisbeschreibungen als auch die objektorientierten Verfolgungszustände des Videos zu speichern; 2) bei einer Eingabeaufgabenabfrage verwendet er Werkzeuge wie die Lokalisierung von Videoabschnitten und die Abfrage des Objektgedächtnisses zusammen mit anderen visuellen Grundlagenmodellen, um interaktiv die Aufgabe zu lösen, wobei die Fähigkeit zur werkzeuglosen Verwendung von LLMs genutzt wird. VideoAgent zeigt beeindruckende Leistungen bei mehreren Langzeit-Videoverständnis-Benchmarks, eine durchschnittliche Steigerung von 6,6% bei NExT-QA und 26,0% bei EgoSchema gegenüber Basislinien, wodurch die Kluft zwischen Open-Source-Modellen und privaten Gegenstücken, einschließlich Gemini 1.5 Pro, geschlossen wird.
English
We explore how reconciling several foundation models (large language models
and vision-language models) with a novel unified memory mechanism could tackle
the challenging video understanding problem, especially capturing the long-term
temporal relations in lengthy videos. In particular, the proposed multimodal
agent VideoAgent: 1) constructs a structured memory to store both the generic
temporal event descriptions and object-centric tracking states of the video; 2)
given an input task query, it employs tools including video segment
localization and object memory querying along with other visual foundation
models to interactively solve the task, utilizing the zero-shot tool-use
ability of LLMs. VideoAgent demonstrates impressive performances on several
long-horizon video understanding benchmarks, an average increase of 6.6% on
NExT-QA and 26.0% on EgoSchema over baselines, closing the gap between
open-sourced models and private counterparts including Gemini 1.5 Pro.Summary
AI-Generated Summary