VideoAgent: Compreensão de Vídeos de Longa Duração com Modelo de Linguagem de Grande Escala como Agente
VideoAgent: Long-form Video Understanding with Large Language Model as Agent
March 15, 2024
Autores: Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy
cs.AI
Resumo
A compreensão de vídeos de longa duração representa um desafio significativo na área de visão computacional, exigindo um modelo capaz de raciocinar sobre sequências multimodais extensas. Motivados pelo processo cognitivo humano para a compreensão de vídeos de longa duração, enfatizamos o raciocínio interativo e o planejamento em vez da capacidade de processar entradas visuais longas. Introduzimos um sistema inovador baseado em agentes, o VideoAgent, que emprega um modelo de linguagem de grande escala como agente central para identificar e compilar iterativamente informações cruciais para responder a uma pergunta, com modelos de base visão-linguagem atuando como ferramentas para traduzir e recuperar informações visuais. Avaliado nos desafiadores benchmarks EgoSchema e NExT-QA, o VideoAgent alcança 54,1% e 71,3% de precisão zero-shot, utilizando em média apenas 8,4 e 8,2 frames, respectivamente. Esses resultados demonstram a superioridade em eficácia e eficiência do nosso método em relação aos métodos state-of-the-art atuais, destacando o potencial das abordagens baseadas em agentes para avançar a compreensão de vídeos de longa duração.
English
Long-form video understanding represents a significant challenge within
computer vision, demanding a model capable of reasoning over long multi-modal
sequences. Motivated by the human cognitive process for long-form video
understanding, we emphasize interactive reasoning and planning over the ability
to process lengthy visual inputs. We introduce a novel agent-based system,
VideoAgent, that employs a large language model as a central agent to
iteratively identify and compile crucial information to answer a question, with
vision-language foundation models serving as tools to translate and retrieve
visual information. Evaluated on the challenging EgoSchema and NExT-QA
benchmarks, VideoAgent achieves 54.1% and 71.3% zero-shot accuracy with only
8.4 and 8.2 frames used on average. These results demonstrate superior
effectiveness and efficiency of our method over the current state-of-the-art
methods, highlighting the potential of agent-based approaches in advancing
long-form video understanding.