ChatPaper.aiChatPaper

Золотая рыбка: Понимание зрительно-языковой информации в видеорядах произвольной длины

Goldfish: Vision-Language Understanding of Arbitrarily Long Videos

July 17, 2024
Авторы: Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Mingchen Zhuge, Jian Ding, Deyao Zhu, Jürgen Schmidhuber, Mohamed Elhoseiny
cs.AI

Аннотация

Большинство существующих моделей на основе LLM для понимания видео могут обрабатывать видео в течение нескольких минут. Однако они испытывают трудности с длинными видео из-за вызовов, таких как "шум и избыточность", а также ограничений "памяти и вычислений". В данной статье мы представляем методологию Goldfish, разработанную для понимания видео произвольной длины. Мы также представляем бенчмарк TVQA-long, специально созданный для оценки способностей моделей в понимании длинных видео с вопросами как визуального, так и текстового содержания. Goldfish решает эти проблемы с помощью эффективного механизма извлечения, который сначала собирает топ-k видеороликов, соответствующих инструкции, перед тем как предоставить желаемый ответ. Такое построение механизма извлечения позволяет Goldfish эффективно обрабатывать произвольно длинные видеоряды, облегчая его применение в контекстах, таких как фильмы или телесериалы. Для упрощения процесса извлечения мы разработали MiniGPT4-Video, который генерирует подробные описания для видеороликов. Для решения проблемы недостатка бенчмарков для оценки длинных видео мы адаптировали бенчмарк TVQA short video для анализа расширенного контента, агрегируя вопросы из целых эпизодов, тем самым переводя оценку с частичного на полное понимание эпизода. Мы достигли точности 41.78% на бенчмарке TVQA-long, превзойдя предыдущие методы на 14.94%. Наш MiniGPT4-Video также показывает выдающуюся производительность в понимании коротких видео, превосходя существующие передовые методы на 3.23%, 2.03%, 16.5% и 23.59% на бенчмарках MSVD, MSRVTT, TGIF и TVQA short video соответственно. Эти результаты указывают на значительные улучшения наших моделей в понимании как длинных, так и коротких видео. Наши модели и код были опубликованы на общественном доступе по адресу https://vision-cair.github.io/Goldfish_website/
English
Most current LLM-based models for video understanding can process videos within minutes. However, they struggle with lengthy videos due to challenges such as "noise and redundancy", as well as "memory and computation" constraints. In this paper, we present Goldfish, a methodology tailored for comprehending videos of arbitrary lengths. We also introduce the TVQA-long benchmark, specifically designed to evaluate models' capabilities in understanding long videos with questions in both vision and text content. Goldfish approaches these challenges with an efficient retrieval mechanism that initially gathers the top-k video clips relevant to the instruction before proceeding to provide the desired response. This design of the retrieval mechanism enables the Goldfish to efficiently process arbitrarily long video sequences, facilitating its application in contexts such as movies or television series. To facilitate the retrieval process, we developed MiniGPT4-Video that generates detailed descriptions for the video clips. In addressing the scarcity of benchmarks for long video evaluation, we adapted the TVQA short video benchmark for extended content analysis by aggregating questions from entire episodes, thereby shifting the evaluation from partial to full episode comprehension. We attained a 41.78% accuracy rate on the TVQA-long benchmark, surpassing previous methods by 14.94%. Our MiniGPT4-Video also shows exceptional performance in short video comprehension, exceeding existing state-of-the-art methods by 3.23%, 2.03%, 16.5% and 23.59% on the MSVD, MSRVTT, TGIF, and TVQA short video benchmarks, respectively. These results indicate that our models have significant improvements in both long and short-video understanding. Our models and code have been made publicly available at https://vision-cair.github.io/Goldfish_website/

Summary

AI-Generated Summary

PDF82November 28, 2024