VideoAgent: Um Agente Multimodal com Memória Aumentada para Compreensão de Vídeos
VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding
March 18, 2024
Autores: Yue Fan, Xiaojian Ma, Rujie Wu, Yuntao Du, Jiaqi Li, Zhi Gao, Qing Li
cs.AI
Resumo
Exploramos como a reconciliação de vários modelos fundamentais (grandes modelos de linguagem e modelos visão-linguagem) com um novo mecanismo de memória unificada pode abordar o desafiador problema de compreensão de vídeos, especialmente capturando as relações temporais de longo prazo em vídeos extensos. Em particular, o agente multimodal proposto, VideoAgent: 1) constrói uma memória estruturada para armazenar tanto as descrições genéricas de eventos temporais quanto os estados de rastreamento centrados em objetos do vídeo; 2) dada uma consulta de tarefa de entrada, ele emprega ferramentas, incluindo localização de segmentos de vídeo e consulta de memória de objetos, juntamente com outros modelos fundamentais visuais, para resolver a tarefa de forma interativa, utilizando a capacidade de uso de ferramentas zero-shot dos LLMs. O VideoAgent demonstra desempenhos impressionantes em vários benchmarks de compreensão de vídeos de longo horizonte, com um aumento médio de 6,6% no NExT-QA e 26,0% no EgoSchema em relação às linhas de base, reduzindo a lacuna entre modelos de código aberto e contrapartes privadas, incluindo o Gemini 1.5 Pro.
English
We explore how reconciling several foundation models (large language models
and vision-language models) with a novel unified memory mechanism could tackle
the challenging video understanding problem, especially capturing the long-term
temporal relations in lengthy videos. In particular, the proposed multimodal
agent VideoAgent: 1) constructs a structured memory to store both the generic
temporal event descriptions and object-centric tracking states of the video; 2)
given an input task query, it employs tools including video segment
localization and object memory querying along with other visual foundation
models to interactively solve the task, utilizing the zero-shot tool-use
ability of LLMs. VideoAgent demonstrates impressive performances on several
long-horizon video understanding benchmarks, an average increase of 6.6% on
NExT-QA and 26.0% on EgoSchema over baselines, closing the gap between
open-sourced models and private counterparts including Gemini 1.5 Pro.