VideoAgent: Een Geheugen-versterkte Multimodale Agent voor Videobegrip
VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding
March 18, 2024
Auteurs: Yue Fan, Xiaojian Ma, Rujie Wu, Yuntao Du, Jiaqi Li, Zhi Gao, Qing Li
cs.AI
Samenvatting
We onderzoeken hoe het verzoenen van verschillende foundation models (grote taalmodellen en visueel-taalkundige modellen) met een nieuw geïntegreerd geheugenmechanisme het uitdagende probleem van videobegrip kan aanpakken, met name het vastleggen van langetermijn temporele relaties in lange video's. In het bijzonder stelt de voorgestelde multimodale agent VideoAgent: 1) een gestructureerd geheugen op om zowel generieke temporele gebeurtenisbeschrijvingen als objectgerichte trackingstatussen van de video op te slaan; 2) gegeven een invoertaakquery, maakt het gebruik van tools zoals videosegmentlokalisatie en objectgeheugenquery's, samen met andere visuele foundation models, om de taak interactief op te lossen, waarbij het de zero-shot tool-use mogelijkheid van LLMs benut. VideoAgent toont indrukwekkende prestaties op verschillende langetermijn videobegrip benchmarks, met een gemiddelde stijging van 6,6% op NExT-QA en 26,0% op EgoSchema ten opzichte van de basislijnen, waardoor de kloof tussen open-source modellen en private tegenhangers, waaronder Gemini 1.5 Pro, wordt verkleind.
English
We explore how reconciling several foundation models (large language models
and vision-language models) with a novel unified memory mechanism could tackle
the challenging video understanding problem, especially capturing the long-term
temporal relations in lengthy videos. In particular, the proposed multimodal
agent VideoAgent: 1) constructs a structured memory to store both the generic
temporal event descriptions and object-centric tracking states of the video; 2)
given an input task query, it employs tools including video segment
localization and object memory querying along with other visual foundation
models to interactively solve the task, utilizing the zero-shot tool-use
ability of LLMs. VideoAgent demonstrates impressive performances on several
long-horizon video understanding benchmarks, an average increase of 6.6% on
NExT-QA and 26.0% on EgoSchema over baselines, closing the gap between
open-sourced models and private counterparts including Gemini 1.5 Pro.