xGen-MM-Vid (BLIP-3-Video): Solo Necesitas 32 Tokens para Representar un Video Incluso en VLMs
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs
October 21, 2024
Autores: Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles
cs.AI
Resumen
Presentamos xGen-MM-Vid (BLIP-3-Video): un modelo de lenguaje multimodal para videos, diseñado especialmente para capturar eficientemente información temporal a lo largo de múltiples fotogramas. BLIP-3-Video aprovecha el 'codificador temporal' además del tokenizador visual convencional, que mapea una secuencia de tokens a lo largo de varios fotogramas en un conjunto compacto de tokens visuales. Esto permite a BLIP3-Video utilizar muchos menos tokens visuales que sus modelos competidores (por ejemplo, 32 frente a 4608 tokens). Exploramos diferentes tipos de codificadores temporales, incluyendo el agrupamiento espacio-temporal aprendible, así como modelos secuenciales como las Máquinas de Turing de Tokens. Experimentalmente confirmamos que BLIP-3-Video obtiene precisión en preguntas y respuestas de video comparable a modelos de vanguardia mucho más grandes (por ejemplo, 34B), siendo mucho más pequeño (es decir, 4B) y más eficiente al utilizar menos tokens visuales. El sitio web del proyecto se encuentra en https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
English
We present xGen-MM-Vid (BLIP-3-Video): a multimodal language model for
videos, particularly designed to efficiently capture temporal information over
multiple frames. BLIP-3-Video takes advantage of the 'temporal encoder' in
addition to the conventional visual tokenizer, which maps a sequence of tokens
over multiple frames into a compact set of visual tokens. This enables
BLIP3-Video to use much fewer visual tokens than its competing models (e.g., 32
vs. 4608 tokens). We explore different types of temporal encoders, including
learnable spatio-temporal pooling as well as sequential models like Token
Turing Machines. We experimentally confirm that BLIP-3-Video obtains video
question-answering accuracies comparable to much larger state-of-the-art models
(e.g., 34B), while being much smaller (i.e., 4B) and more efficient by using
fewer visual tokens. The project website is at
https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.htmlSummary
AI-Generated Summary