VideoAgent: Langdurige Video-interpretatie met een Groot Taalmodel als Agent
VideoAgent: Long-form Video Understanding with Large Language Model as Agent
March 15, 2024
Auteurs: Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy
cs.AI
Samenvatting
Het begrijpen van lange video's vormt een aanzienlijke uitdaging binnen
computer vision, waarbij een model nodig is dat kan redeneren over lange multi-modale
sequenties. Geïnspireerd door het menselijk cognitieve proces voor het begrijpen van lange video's,
benadrukken we interactief redeneren en plannen boven de mogelijkheid
om lange visuele inputs te verwerken. We introduceren een nieuw agent-gebaseerd systeem,
VideoAgent, dat een groot taalmodel gebruikt als centrale agent om
iteratief cruciale informatie te identificeren en samen te stellen om een vraag te beantwoorden, waarbij
vision-language foundation modellen dienen als tools om visuele informatie te vertalen en op te halen.
Getest op de uitdagende EgoSchema en NExT-QA
benchmarks, behaalt VideoAgent een zero-shot nauwkeurigheid van 54,1% en 71,3% met slechts
8,4 en 8,2 frames gemiddeld gebruikt. Deze resultaten tonen de superieure
effectiviteit en efficiëntie van onze methode aan ten opzichte van de huidige state-of-the-art
methoden, wat het potentieel van agent-gebaseerde benaderingen benadrukt bij het bevorderen
van het begrijpen van lange video's.
English
Long-form video understanding represents a significant challenge within
computer vision, demanding a model capable of reasoning over long multi-modal
sequences. Motivated by the human cognitive process for long-form video
understanding, we emphasize interactive reasoning and planning over the ability
to process lengthy visual inputs. We introduce a novel agent-based system,
VideoAgent, that employs a large language model as a central agent to
iteratively identify and compile crucial information to answer a question, with
vision-language foundation models serving as tools to translate and retrieve
visual information. Evaluated on the challenging EgoSchema and NExT-QA
benchmarks, VideoAgent achieves 54.1% and 71.3% zero-shot accuracy with only
8.4 and 8.2 frames used on average. These results demonstrate superior
effectiveness and efficiency of our method over the current state-of-the-art
methods, highlighting the potential of agent-based approaches in advancing
long-form video understanding.