ChatPaper.aiChatPaper

VideoAgent: Многомодальный агент с памятью для понимания видео

VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

March 18, 2024
Авторы: Yue Fan, Xiaojian Ma, Rujie Wu, Yuntao Du, Jiaqi Li, Zhi Gao, Qing Li
cs.AI

Аннотация

Мы исследуем, как согласование нескольких базовых моделей (больших языковых моделей и моделей видео-языка) с новым объединенным механизмом памяти может решить сложную проблему понимания видео, особенно захватывая долгосрочные временные отношения в длинных видеороликах. В частности, предложенный мультимодальный агент VideoAgent: 1) создает структурированную память для хранения как общих временных описаний событий, так и объектно-центрических состояний отслеживания видео; 2) при заданном входном запросе к задаче он использует инструменты, включая локализацию видеосегментов и запросы памяти объектов, наряду с другими визуальными базовыми моделями для интерактивного решения задачи, используя возможность нулевого применения инструментов LLMs. VideoAgent демонстрирует впечатляющие результаты на нескольких долгосрочных бенчмарках понимания видео, в среднем увеличивая NExT-QA на 6.6% и EgoSchema на 26.0% по сравнению с базовыми моделями, сокращая разрыв между моделями с открытым и закрытым исходным кодом, включая Gemini 1.5 Pro.
English
We explore how reconciling several foundation models (large language models and vision-language models) with a novel unified memory mechanism could tackle the challenging video understanding problem, especially capturing the long-term temporal relations in lengthy videos. In particular, the proposed multimodal agent VideoAgent: 1) constructs a structured memory to store both the generic temporal event descriptions and object-centric tracking states of the video; 2) given an input task query, it employs tools including video segment localization and object memory querying along with other visual foundation models to interactively solve the task, utilizing the zero-shot tool-use ability of LLMs. VideoAgent demonstrates impressive performances on several long-horizon video understanding benchmarks, an average increase of 6.6% on NExT-QA and 26.0% on EgoSchema over baselines, closing the gap between open-sourced models and private counterparts including Gemini 1.5 Pro.

Summary

AI-Generated Summary

PDF131December 15, 2024