VideoAgent: Un Agente Multimodal con Memoria para la Comprensión de Videos
VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding
March 18, 2024
Autores: Yue Fan, Xiaojian Ma, Rujie Wu, Yuntao Du, Jiaqi Li, Zhi Gao, Qing Li
cs.AI
Resumen
Exploramos cómo la reconciliación de varios modelos fundamentales (modelos de lenguaje extenso y modelos de visión-lenguaje) con un novedoso mecanismo de memoria unificada podría abordar el desafiante problema de comprensión de videos, especialmente capturando las relaciones temporales a largo plazo en videos extensos. En particular, el agente multimodal propuesto, VideoAgent: 1) construye una memoria estructurada para almacenar tanto las descripciones genéricas de eventos temporales como los estados de seguimiento centrados en objetos del video; 2) dada una consulta de tarea de entrada, emplea herramientas que incluyen la localización de segmentos de video y la consulta de memoria de objetos junto con otros modelos fundamentales visuales para resolver la tarea de manera interactiva, utilizando la capacidad de uso de herramientas en modo zero-shot de los LLMs. VideoAgent demuestra un rendimiento impresionante en varios puntos de referencia de comprensión de videos a largo plazo, con un aumento promedio del 6.6% en NExT-QA y del 26.0% en EgoSchema sobre las líneas base, cerrando la brecha entre los modelos de código abierto y sus contrapartes privadas, incluyendo Gemini 1.5 Pro.
English
We explore how reconciling several foundation models (large language models
and vision-language models) with a novel unified memory mechanism could tackle
the challenging video understanding problem, especially capturing the long-term
temporal relations in lengthy videos. In particular, the proposed multimodal
agent VideoAgent: 1) constructs a structured memory to store both the generic
temporal event descriptions and object-centric tracking states of the video; 2)
given an input task query, it employs tools including video segment
localization and object memory querying along with other visual foundation
models to interactively solve the task, utilizing the zero-shot tool-use
ability of LLMs. VideoAgent demonstrates impressive performances on several
long-horizon video understanding benchmarks, an average increase of 6.6% on
NExT-QA and 26.0% on EgoSchema over baselines, closing the gap between
open-sourced models and private counterparts including Gemini 1.5 Pro.Summary
AI-Generated Summary