VideoAgent : Un agent multimodal à mémoire augmentée pour la compréhension vidéo
VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding
March 18, 2024
Auteurs: Yue Fan, Xiaojian Ma, Rujie Wu, Yuntao Du, Jiaqi Li, Zhi Gao, Qing Li
cs.AI
Résumé
Nous explorons comment la réconciliation de plusieurs modèles de base (grands modèles de langage et modèles vision-langage) avec un nouveau mécanisme de mémoire unifié pourrait aborder le problème complexe de la compréhension vidéo, en particulier la capture des relations temporelles à long terme dans des vidéos de longue durée. Plus précisément, l'agent multimodal proposé, VideoAgent : 1) construit une mémoire structurée pour stocker à la fois les descriptions génériques d'événements temporels et les états de suivi centrés sur les objets de la vidéo ; 2) face à une requête de tâche donnée, il utilise des outils tels que la localisation de segments vidéo et l'interrogation de la mémoire des objets, ainsi que d'autres modèles de base visuels, pour résoudre la tâche de manière interactive, en exploitant la capacité des grands modèles de langage à utiliser des outils en mode zero-shot. VideoAgent démontre des performances impressionnantes sur plusieurs benchmarks de compréhension vidéo à long terme, avec une augmentation moyenne de 6,6 % sur NExT-QA et de 26,0 % sur EgoSchema par rapport aux modèles de référence, réduisant ainsi l'écart entre les modèles open-source et leurs homologues privés, y compris Gemini 1.5 Pro.
English
We explore how reconciling several foundation models (large language models
and vision-language models) with a novel unified memory mechanism could tackle
the challenging video understanding problem, especially capturing the long-term
temporal relations in lengthy videos. In particular, the proposed multimodal
agent VideoAgent: 1) constructs a structured memory to store both the generic
temporal event descriptions and object-centric tracking states of the video; 2)
given an input task query, it employs tools including video segment
localization and object memory querying along with other visual foundation
models to interactively solve the task, utilizing the zero-shot tool-use
ability of LLMs. VideoAgent demonstrates impressive performances on several
long-horizon video understanding benchmarks, an average increase of 6.6% on
NExT-QA and 26.0% on EgoSchema over baselines, closing the gap between
open-sourced models and private counterparts including Gemini 1.5 Pro.Summary
AI-Generated Summary