Peixe Dourado: Compreensão de Visão e Linguagem de Vídeos de Comprimento Arbitrariamente Longo
Goldfish: Vision-Language Understanding of Arbitrarily Long Videos
July 17, 2024
Autores: Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Mingchen Zhuge, Jian Ding, Deyao Zhu, Jürgen Schmidhuber, Mohamed Elhoseiny
cs.AI
Resumo
A maioria dos modelos baseados em LLM para compreensão de vídeos atuais consegue processar vídeos em questão de minutos. No entanto, eles enfrentam dificuldades com vídeos longos devido a desafios como "ruído e redundância", bem como restrições de "memória e computação". Neste artigo, apresentamos Goldfish, uma metodologia adaptada para compreender vídeos de comprimentos arbitrários. Também introduzimos o benchmark TVQA-long, especificamente projetado para avaliar as capacidades dos modelos em compreender vídeos longos com perguntas em conteúdo visual e textual. O Goldfish aborda esses desafios com um mecanismo de recuperação eficiente que inicialmente reúne os principais trechos de vídeo relevantes para a instrução antes de fornecer a resposta desejada. Esse design do mecanismo de recuperação permite que o Goldfish processe eficientemente sequências de vídeo arbitrariamente longas, facilitando sua aplicação em contextos como filmes ou séries de televisão. Para facilitar o processo de recuperação, desenvolvemos o MiniGPT4-Video, que gera descrições detalhadas para os trechos de vídeo. Ao abordar a escassez de benchmarks para avaliação de vídeos longos, adaptamos o benchmark de vídeos curtos TVQA para análise de conteúdo estendido, agregando perguntas de episódios inteiros, mudando assim a avaliação de compreensão parcial para compreensão do episódio completo. Alcançamos uma taxa de precisão de 41,78% no benchmark TVQA-long, superando métodos anteriores em 14,94%. Nosso MiniGPT4-Video também demonstra um desempenho excepcional na compreensão de vídeos curtos, superando os métodos existentes de ponta em 3,23%, 2,03%, 16,5% e 23,59% nos benchmarks de vídeos curtos MSVD, MSRVTT, TGIF e TVQA, respectivamente. Esses resultados indicam que nossos modelos apresentam melhorias significativas tanto na compreensão de vídeos longos quanto curtos. Nossos modelos e código estão disponíveis publicamente em https://vision-cair.github.io/Goldfish_website/
English
Most current LLM-based models for video understanding can process videos
within minutes. However, they struggle with lengthy videos due to challenges
such as "noise and redundancy", as well as "memory and computation"
constraints. In this paper, we present Goldfish, a methodology tailored for
comprehending videos of arbitrary lengths. We also introduce the TVQA-long
benchmark, specifically designed to evaluate models' capabilities in
understanding long videos with questions in both vision and text content.
Goldfish approaches these challenges with an efficient retrieval mechanism that
initially gathers the top-k video clips relevant to the instruction before
proceeding to provide the desired response. This design of the retrieval
mechanism enables the Goldfish to efficiently process arbitrarily long video
sequences, facilitating its application in contexts such as movies or
television series. To facilitate the retrieval process, we developed
MiniGPT4-Video that generates detailed descriptions for the video clips. In
addressing the scarcity of benchmarks for long video evaluation, we adapted the
TVQA short video benchmark for extended content analysis by aggregating
questions from entire episodes, thereby shifting the evaluation from partial to
full episode comprehension. We attained a 41.78% accuracy rate on the TVQA-long
benchmark, surpassing previous methods by 14.94%. Our MiniGPT4-Video also shows
exceptional performance in short video comprehension, exceeding existing
state-of-the-art methods by 3.23%, 2.03%, 16.5% and 23.59% on the MSVD, MSRVTT,
TGIF, and TVQA short video benchmarks, respectively. These results indicate
that our models have significant improvements in both long and short-video
understanding. Our models and code have been made publicly available at
https://vision-cair.github.io/Goldfish_website/