ChatPaper.aiChatPaper

VideoAgent : Un agent multimodal à mémoire augmentée pour la compréhension vidéo

VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

March 18, 2024
Auteurs: Yue Fan, Xiaojian Ma, Rujie Wu, Yuntao Du, Jiaqi Li, Zhi Gao, Qing Li
cs.AI

Résumé

Nous explorons comment la réconciliation de plusieurs modèles de base (grands modèles de langage et modèles vision-langage) avec un nouveau mécanisme de mémoire unifié pourrait aborder le problème complexe de la compréhension vidéo, en particulier la capture des relations temporelles à long terme dans des vidéos de longue durée. Plus précisément, l'agent multimodal proposé, VideoAgent : 1) construit une mémoire structurée pour stocker à la fois les descriptions génériques d'événements temporels et les états de suivi centrés sur les objets de la vidéo ; 2) face à une requête de tâche donnée, il utilise des outils tels que la localisation de segments vidéo et l'interrogation de la mémoire des objets, ainsi que d'autres modèles de base visuels, pour résoudre la tâche de manière interactive, en exploitant la capacité des grands modèles de langage à utiliser des outils en mode zero-shot. VideoAgent démontre des performances impressionnantes sur plusieurs benchmarks de compréhension vidéo à long terme, avec une augmentation moyenne de 6,6 % sur NExT-QA et de 26,0 % sur EgoSchema par rapport aux modèles de référence, réduisant ainsi l'écart entre les modèles open-source et leurs homologues privés, y compris Gemini 1.5 Pro.
English
We explore how reconciling several foundation models (large language models and vision-language models) with a novel unified memory mechanism could tackle the challenging video understanding problem, especially capturing the long-term temporal relations in lengthy videos. In particular, the proposed multimodal agent VideoAgent: 1) constructs a structured memory to store both the generic temporal event descriptions and object-centric tracking states of the video; 2) given an input task query, it employs tools including video segment localization and object memory querying along with other visual foundation models to interactively solve the task, utilizing the zero-shot tool-use ability of LLMs. VideoAgent demonstrates impressive performances on several long-horizon video understanding benchmarks, an average increase of 6.6% on NExT-QA and 26.0% on EgoSchema over baselines, closing the gap between open-sourced models and private counterparts including Gemini 1.5 Pro.

Summary

AI-Generated Summary

PDF131December 15, 2024