VideoAgent : Compréhension de vidéos longues avec un modèle de langage de grande taille comme agent
VideoAgent: Long-form Video Understanding with Large Language Model as Agent
March 15, 2024
Auteurs: Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy
cs.AI
Résumé
La compréhension des vidéos longues représente un défi majeur dans le domaine de la vision par ordinateur, nécessitant un modèle capable de raisonner sur des séquences multimodales étendues. Inspirés par le processus cognitif humain pour la compréhension des vidéos longues, nous mettons l'accent sur le raisonnement interactif et la planification plutôt que sur la capacité à traiter des entrées visuelles prolongées. Nous introduisons un système novateur basé sur des agents, VideoAgent, qui utilise un grand modèle de langage comme agent central pour identifier et compiler de manière itérative les informations cruciales afin de répondre à une question, avec des modèles de base vision-langage servant d'outils pour traduire et récupérer les informations visuelles. Évalué sur les benchmarks exigeants EgoSchema et NExT-QA, VideoAgent atteint une précision en zero-shot de 54,1 % et 71,3 % en utilisant respectivement seulement 8,4 et 8,2 images en moyenne. Ces résultats démontrent une efficacité et une efficience supérieures de notre méthode par rapport aux méthodes actuelles de pointe, soulignant le potentiel des approches basées sur des agents pour faire progresser la compréhension des vidéos longues.
English
Long-form video understanding represents a significant challenge within
computer vision, demanding a model capable of reasoning over long multi-modal
sequences. Motivated by the human cognitive process for long-form video
understanding, we emphasize interactive reasoning and planning over the ability
to process lengthy visual inputs. We introduce a novel agent-based system,
VideoAgent, that employs a large language model as a central agent to
iteratively identify and compile crucial information to answer a question, with
vision-language foundation models serving as tools to translate and retrieve
visual information. Evaluated on the challenging EgoSchema and NExT-QA
benchmarks, VideoAgent achieves 54.1% and 71.3% zero-shot accuracy with only
8.4 and 8.2 frames used on average. These results demonstrate superior
effectiveness and efficiency of our method over the current state-of-the-art
methods, highlighting the potential of agent-based approaches in advancing
long-form video understanding.Summary
AI-Generated Summary