VideoAgent: Een Geheugen-versterkte Multimodale Agent voor Videobegrip

Samenvatting

We onderzoeken hoe het verzoenen van verschillende foundation models (grote taalmodellen en visueel-taalkundige modellen) met een nieuw geïntegreerd geheugenmechanisme het uitdagende probleem van videobegrip kan aanpakken, met name het vastleggen van langetermijn temporele relaties in lange video's. In het bijzonder stelt de voorgestelde multimodale agent VideoAgent: 1) een gestructureerd geheugen op om zowel generieke temporele gebeurtenisbeschrijvingen als objectgerichte trackingstatussen van de video op te slaan; 2) gegeven een invoertaakquery, maakt het gebruik van tools zoals videosegmentlokalisatie en objectgeheugenquery's, samen met andere visuele foundation models, om de taak interactief op te lossen, waarbij het de zero-shot tool-use mogelijkheid van LLMs benut. VideoAgent toont indrukwekkende prestaties op verschillende langetermijn videobegrip benchmarks, met een gemiddelde stijging van 6,6% op NExT-QA en 26,0% op EgoSchema ten opzichte van de basislijnen, waardoor de kloof tussen open-source modellen en private tegenhangers, waaronder Gemini 1.5 Pro, wordt verkleind.

English

We explore how reconciling several foundation models (large language models and vision-language models) with a novel unified memory mechanism could tackle the challenging video understanding problem, especially capturing the long-term temporal relations in lengthy videos. In particular, the proposed multimodal agent VideoAgent: 1) constructs a structured memory to store both the generic temporal event descriptions and object-centric tracking states of the video; 2) given an input task query, it employs tools including video segment localization and object memory querying along with other visual foundation models to interactively solve the task, utilizing the zero-shot tool-use ability of LLMs. VideoAgent demonstrates impressive performances on several long-horizon video understanding benchmarks, an average increase of 6.6% on NExT-QA and 26.0% on EgoSchema over baselines, closing the gap between open-sourced models and private counterparts including Gemini 1.5 Pro.

VideoAgent: Een Geheugen-versterkte Multimodale Agent voor Videobegrip

VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

Samenvatting

Support