Video-LaVIT: Preentrenamiento Unificado de Video-Lenguaje con Tokenización Visual-Motriz Desacoplada
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization
February 5, 2024
Autores: Yang Jin, Zhicheng Sun, Kun Xu, Kun Xu, Liwei Chen, Hao Jiang, Quzhe Huang, Chengru Song, Yuliang Liu, Di Zhang, Yang Song, Kun Gai, Yadong Mu
cs.AI
Resumen
A la luz de los recientes avances en los modelos de lenguaje multimodal de gran escala (LLMs, por sus siglas en inglés), existe una creciente atención en escalarlos desde datos de imagen-texto hacia videos del mundo real más informativos. En comparación con las imágenes estáticas, el video presenta desafíos únicos para un preentrenamiento efectivo a gran escala debido al modelado de sus dinámicas espacio-temporales. En este artículo, abordamos tales limitaciones en el preentrenamiento de video-lenguaje con una descomposición eficiente de video que representa cada video como fotogramas clave y movimientos temporales. Estos se adaptan luego a un LLM utilizando tokenizadores bien diseñados que discretizan la información visual y temporal como unos pocos tokens, permitiendo así un preentrenamiento generativo unificado de videos, imágenes y texto. Durante la inferencia, los tokens generados por el LLM se recuperan cuidadosamente al espacio de píxeles continuo original para crear diversos contenidos de video. Nuestro marco propuesto es capaz tanto de comprender como de generar contenido de imagen y video, como lo demuestra su rendimiento competitivo en 13 benchmarks multimodales de comprensión y generación de imagen y video. Nuestro código y modelos estarán disponibles en https://video-lavit.github.io.
English
In light of recent advances in multimodal Large Language Models (LLMs), there
is increasing attention to scaling them from image-text data to more
informative real-world videos. Compared to static images, video poses unique
challenges for effective large-scale pre-training due to the modeling of its
spatiotemporal dynamics. In this paper, we address such limitations in
video-language pre-training with an efficient video decomposition that
represents each video as keyframes and temporal motions. These are then adapted
to an LLM using well-designed tokenizers that discretize visual and temporal
information as a few tokens, thus enabling unified generative pre-training of
videos, images, and text. At inference, the generated tokens from the LLM are
carefully recovered to the original continuous pixel space to create various
video content. Our proposed framework is both capable of comprehending and
generating image and video content, as demonstrated by its competitive
performance across 13 multimodal benchmarks in image and video understanding
and generation. Our code and models will be available at
https://video-lavit.github.io.