xGen-MM-Vid (BLIP-3-Video): Ti servono solo 32 token per rappresentare un video anche nei VLM

Abstract

Presentiamo xGen-MM-Vid (BLIP-3-Video): un modello linguistico multimodale per video, progettato appositamente per catturare in modo efficiente le informazioni temporali su più fotogrammi. BLIP-3-Video sfrutta l' 'codificatore temporale' oltre al tradizionale tokenizzatore visivo, che mappa una sequenza di token su più fotogrammi in un insieme compatto di token visivi. Ciò consente a BLIP3-Video di utilizzare molti meno token visivi rispetto ai suoi modelli concorrenti (ad esempio, 32 rispetto a 4608 token). Esploriamo diversi tipi di codificatori temporali, tra cui il raggruppamento spazio-temporale apprendibile e modelli sequenziali come le Macchine a Token Turing. Confermiamo sperimentalmente che BLIP-3-Video ottiene accuratezze di domande e risposte video paragonabili a modelli state-of-the-art molto più grandi (ad esempio, 34B), pur essendo molto più piccolo (cioè, 4B) e più efficiente utilizzando meno token visivi. Il sito web del progetto si trova su https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html

English

We present xGen-MM-Vid (BLIP-3-Video): a multimodal language model for videos, particularly designed to efficiently capture temporal information over multiple frames. BLIP-3-Video takes advantage of the 'temporal encoder' in addition to the conventional visual tokenizer, which maps a sequence of tokens over multiple frames into a compact set of visual tokens. This enables BLIP3-Video to use much fewer visual tokens than its competing models (e.g., 32 vs. 4608 tokens). We explore different types of temporal encoders, including learnable spatio-temporal pooling as well as sequential models like Token Turing Machines. We experimentally confirm that BLIP-3-Video obtains video question-answering accuracies comparable to much larger state-of-the-art models (e.g., 34B), while being much smaller (i.e., 4B) and more efficient by using fewer visual tokens. The project website is at https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html

xGen-MM-Vid (BLIP-3-Video): Ti servono solo 32 token per rappresentare un video anche nei VLM

xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

Abstract

Support