ChatPaper.aiChatPaper

VideoAgent: Langdurige Video-interpretatie met een Groot Taalmodel als Agent

VideoAgent: Long-form Video Understanding with Large Language Model as Agent

March 15, 2024
Auteurs: Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy
cs.AI

Samenvatting

Het begrijpen van lange video's vormt een aanzienlijke uitdaging binnen computer vision, waarbij een model nodig is dat kan redeneren over lange multi-modale sequenties. Geïnspireerd door het menselijk cognitieve proces voor het begrijpen van lange video's, benadrukken we interactief redeneren en plannen boven de mogelijkheid om lange visuele inputs te verwerken. We introduceren een nieuw agent-gebaseerd systeem, VideoAgent, dat een groot taalmodel gebruikt als centrale agent om iteratief cruciale informatie te identificeren en samen te stellen om een vraag te beantwoorden, waarbij vision-language foundation modellen dienen als tools om visuele informatie te vertalen en op te halen. Getest op de uitdagende EgoSchema en NExT-QA benchmarks, behaalt VideoAgent een zero-shot nauwkeurigheid van 54,1% en 71,3% met slechts 8,4 en 8,2 frames gemiddeld gebruikt. Deze resultaten tonen de superieure effectiviteit en efficiëntie van onze methode aan ten opzichte van de huidige state-of-the-art methoden, wat het potentieel van agent-gebaseerde benaderingen benadrukt bij het bevorderen van het begrijpen van lange video's.
English
Long-form video understanding represents a significant challenge within computer vision, demanding a model capable of reasoning over long multi-modal sequences. Motivated by the human cognitive process for long-form video understanding, we emphasize interactive reasoning and planning over the ability to process lengthy visual inputs. We introduce a novel agent-based system, VideoAgent, that employs a large language model as a central agent to iteratively identify and compile crucial information to answer a question, with vision-language foundation models serving as tools to translate and retrieve visual information. Evaluated on the challenging EgoSchema and NExT-QA benchmarks, VideoAgent achieves 54.1% and 71.3% zero-shot accuracy with only 8.4 and 8.2 frames used on average. These results demonstrate superior effectiveness and efficiency of our method over the current state-of-the-art methods, highlighting the potential of agent-based approaches in advancing long-form video understanding.
PDF372December 15, 2024