ChatPaper.aiChatPaper

xGen-MM-Vid (BLIP-3-Video): Вам нужно всего 32 токена, чтобы представить видео даже в моделях с очень большой длиной последовательности.

xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

October 21, 2024
Авторы: Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles
cs.AI

Аннотация

Мы представляем xGen-MM-Vid (BLIP-3-Video): мультимодельную языковую модель для видео, специально разработанную для эффективного захвата временной информации на протяжении нескольких кадров. BLIP-3-Video использует 'временной кодер', помимо обычного визуального токенизатора, который отображает последовательность токенов на протяжении нескольких кадров в компактный набор визуальных токенов. Это позволяет BLIP3-Video использовать гораздо меньше визуальных токенов, чем его конкурирующие модели (например, 32 против 4608 токенов). Мы исследуем различные типы временных кодеров, включая обучаемые пространственно-временные пулинги, а также последовательные модели, такие как Токен-Машины Тьюринга. Мы экспериментально подтверждаем, что BLIP-3-Video достигает точности ответов на вопросы по видео, сравнимой с гораздо более крупными современными моделями (например, 34B), при этом она является гораздо более компактной (т. е. 4B) и эффективной за счет использования меньшего количества визуальных токенов. Веб-сайт проекта находится по адресу https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
English
We present xGen-MM-Vid (BLIP-3-Video): a multimodal language model for videos, particularly designed to efficiently capture temporal information over multiple frames. BLIP-3-Video takes advantage of the 'temporal encoder' in addition to the conventional visual tokenizer, which maps a sequence of tokens over multiple frames into a compact set of visual tokens. This enables BLIP3-Video to use much fewer visual tokens than its competing models (e.g., 32 vs. 4608 tokens). We explore different types of temporal encoders, including learnable spatio-temporal pooling as well as sequential models like Token Turing Machines. We experimentally confirm that BLIP-3-Video obtains video question-answering accuracies comparable to much larger state-of-the-art models (e.g., 34B), while being much smaller (i.e., 4B) and more efficient by using fewer visual tokens. The project website is at https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html

Summary

AI-Generated Summary

PDF182November 16, 2024