VideoAgent: Un Agente Multimodale con Memoria per la Comprensione dei Video
VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding
March 18, 2024
Autori: Yue Fan, Xiaojian Ma, Rujie Wu, Yuntao Du, Jiaqi Li, Zhi Gao, Qing Li
cs.AI
Abstract
Esploriamo come la riconciliazione di diversi modelli di base (grandi modelli linguistici e modelli visione-linguaggio) con un nuovo meccanismo di memoria unificata possa affrontare il complesso problema della comprensione video, in particolare catturando le relazioni temporali a lungo termine in video di lunga durata. Nello specifico, l'agente multimodale proposto, VideoAgent: 1) costruisce una memoria strutturata per memorizzare sia le descrizioni generiche degli eventi temporali che gli stati di tracciamento centrati sugli oggetti del video; 2) data una query di task in input, utilizza strumenti come la localizzazione di segmenti video e l'interrogazione della memoria degli oggetti, insieme ad altri modelli di base visivi, per risolvere il task in modo interattivo, sfruttando la capacità zero-shot di utilizzo degli strumenti dei LLM. VideoAgent dimostra prestazioni impressionanti su diversi benchmark di comprensione video a lungo termine, con un aumento medio del 6,6% su NExT-QA e del 26,0% su EgoSchema rispetto ai baseline, riducendo il divario tra i modelli open-source e le controparti private, inclusa Gemini 1.5 Pro.
English
We explore how reconciling several foundation models (large language models
and vision-language models) with a novel unified memory mechanism could tackle
the challenging video understanding problem, especially capturing the long-term
temporal relations in lengthy videos. In particular, the proposed multimodal
agent VideoAgent: 1) constructs a structured memory to store both the generic
temporal event descriptions and object-centric tracking states of the video; 2)
given an input task query, it employs tools including video segment
localization and object memory querying along with other visual foundation
models to interactively solve the task, utilizing the zero-shot tool-use
ability of LLMs. VideoAgent demonstrates impressive performances on several
long-horizon video understanding benchmarks, an average increase of 6.6% on
NExT-QA and 26.0% on EgoSchema over baselines, closing the gap between
open-sourced models and private counterparts including Gemini 1.5 Pro.