ChatPaper.aiChatPaper

VideoAgent: 비디오 이해를 위한 메모리 증강 멀티모달 에이전트

VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

March 18, 2024
저자: Yue Fan, Xiaojian Ma, Rujie Wu, Yuntao Du, Jiaqi Li, Zhi Gao, Qing Li
cs.AI

초록

여러 파운데이션 모델(대형 언어 모델 및 시각-언어 모델)을 새로운 통합 메모리 메커니즘과 조화시키는 것이 어떻게 도전적인 비디오 이해 문제, 특히 긴 비디오에서의 장기적 시간적 관계를 포착하는 문제를 해결할 수 있는지 탐구합니다. 특히, 제안된 다중모달 에이전트 VideoAgent는: 1) 비디오의 일반적인 시간적 이벤트 설명과 객체 중심 추적 상태를 모두 저장하기 위해 구조화된 메모리를 구축하고; 2) 입력된 작업 쿼리가 주어지면, 비디오 세그먼트 위치 지정 및 객체 메모리 쿼리와 같은 도구를 다른 시각적 파운데이션 모델과 함께 사용하여 작업을 상호작용적으로 해결하며, 이는 LLM의 제로샷 도구 사용 능력을 활용합니다. VideoAgent는 여러 장기적 비디오 이해 벤치마크에서 인상적인 성능을 보여주며, NExT-QA에서 평균 6.6%, EgoSchema에서 26.0%의 성능 향상을 보여주어, 오픈소스 모델과 Gemini 1.5 Pro를 포함한 사설 모델 간의 격차를 줄였습니다.
English
We explore how reconciling several foundation models (large language models and vision-language models) with a novel unified memory mechanism could tackle the challenging video understanding problem, especially capturing the long-term temporal relations in lengthy videos. In particular, the proposed multimodal agent VideoAgent: 1) constructs a structured memory to store both the generic temporal event descriptions and object-centric tracking states of the video; 2) given an input task query, it employs tools including video segment localization and object memory querying along with other visual foundation models to interactively solve the task, utilizing the zero-shot tool-use ability of LLMs. VideoAgent demonstrates impressive performances on several long-horizon video understanding benchmarks, an average increase of 6.6% on NExT-QA and 26.0% on EgoSchema over baselines, closing the gap between open-sourced models and private counterparts including Gemini 1.5 Pro.

Summary

AI-Generated Summary

PDF131December 15, 2024