VideoAgent: Ein multimodaler Agent mit Gedächtniserweiterung für das Verstehen von Videos

papers.abstract

Wir untersuchen, wie das Zusammenführen mehrerer Grundlagenmodelle (große Sprachmodelle und Bildsprachmodelle) mit einem neuartigen vereinheitlichten Speichermechanismus das anspruchsvolle Problem des Videoverständnisses bewältigen könnte, insbesondere das Erfassen der langfristigen zeitlichen Beziehungen in umfangreichen Videos. Insbesondere konstruiert der vorgeschlagene multimodale Agent VideoAgent: 1) einen strukturierten Speicher, um sowohl die generischen zeitlichen Ereignisbeschreibungen als auch die objektorientierten Verfolgungszustände des Videos zu speichern; 2) bei einer Eingabeaufgabenabfrage verwendet er Werkzeuge wie die Lokalisierung von Videoabschnitten und die Abfrage des Objektgedächtnisses zusammen mit anderen visuellen Grundlagenmodellen, um interaktiv die Aufgabe zu lösen, wobei die Fähigkeit zur werkzeuglosen Verwendung von LLMs genutzt wird. VideoAgent zeigt beeindruckende Leistungen bei mehreren Langzeit-Videoverständnis-Benchmarks, eine durchschnittliche Steigerung von 6,6% bei NExT-QA und 26,0% bei EgoSchema gegenüber Basislinien, wodurch die Kluft zwischen Open-Source-Modellen und privaten Gegenstücken, einschließlich Gemini 1.5 Pro, geschlossen wird.

English

We explore how reconciling several foundation models (large language models and vision-language models) with a novel unified memory mechanism could tackle the challenging video understanding problem, especially capturing the long-term temporal relations in lengthy videos. In particular, the proposed multimodal agent VideoAgent: 1) constructs a structured memory to store both the generic temporal event descriptions and object-centric tracking states of the video; 2) given an input task query, it employs tools including video segment localization and object memory querying along with other visual foundation models to interactively solve the task, utilizing the zero-shot tool-use ability of LLMs. VideoAgent demonstrates impressive performances on several long-horizon video understanding benchmarks, an average increase of 6.6% on NExT-QA and 26.0% on EgoSchema over baselines, closing the gap between open-sourced models and private counterparts including Gemini 1.5 Pro.

VideoAgent: Ein multimodaler Agent mit Gedächtniserweiterung für das Verstehen von Videos

VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

papers.abstract

Support