Divot: Difusión potencia el tokenizador de video para comprensión y generación
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation
December 5, 2024
Autores: Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan
cs.AI
Resumen
En los últimos años, ha habido un aumento significativo del interés en unificar la comprensión y generación de imágenes dentro de Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés). Este creciente interés nos ha llevado a explorar la extensión de esta unificación a videos. El desafío central radica en desarrollar un tokenizador de video versátil que capture tanto las características espaciales como la dinámica temporal de los videos para obtener representaciones para LLMs, y estas representaciones pueden ser decodificadas posteriormente en clips de video realistas para habilitar la generación de videos. En este trabajo, presentamos Divot, un Tokenizador de Video Potenciado por Difusión, que aprovecha el proceso de difusión para el aprendizaje de representaciones de video auto-supervisado. Sostenemos que si un modelo de difusión de video puede des ruidizar efectivamente clips de video tomando las características de un tokenizador de video como condición, entonces el tokenizador ha capturado con éxito información espacial y temporal robusta. Además, el modelo de difusión de video funciona inherentemente como un des-tokenizador, decodificando videos a partir de sus representaciones. Sobre la base del tokenizador Divot, presentamos Divot-Vicuna a través de la autoregresión de video a texto y la generación de texto a video modelando las distribuciones de características Divot de valores continuos con un Modelo de Mezcla Gaussiana. Los resultados experimentales demuestran que nuestro tokenizador de video basado en difusión, cuando se integra con un LLM pre-entrenado, logra un rendimiento competitivo en diversas pruebas de comprensión y generación de video. El Divot-Vicuna afinado con instrucciones también sobresale en la narración de video, generando narrativas entrelazadas y videos correspondientes.
English
In recent years, there has been a significant surge of interest in unifying
image comprehension and generation within Large Language Models (LLMs). This
growing interest has prompted us to explore extending this unification to
videos. The core challenge lies in developing a versatile video tokenizer that
captures both the spatial characteristics and temporal dynamics of videos to
obtain representations for LLMs, and the representations can be further decoded
into realistic video clips to enable video generation. In this work, we
introduce Divot, a Diffusion-Powered Video Tokenizer, which leverages the
diffusion process for self-supervised video representation learning. We posit
that if a video diffusion model can effectively de-noise video clips by taking
the features of a video tokenizer as the condition, then the tokenizer has
successfully captured robust spatial and temporal information. Additionally,
the video diffusion model inherently functions as a de-tokenizer, decoding
videos from their representations. Building upon the Divot tokenizer, we
present Divot-Vicuna through video-to-text autoregression and text-to-video
generation by modeling the distributions of continuous-valued Divot features
with a Gaussian Mixture Model. Experimental results demonstrate that our
diffusion-based video tokenizer, when integrated with a pre-trained LLM,
achieves competitive performance across various video comprehension and
generation benchmarks. The instruction tuned Divot-Vicuna also excels in video
storytelling, generating interleaved narratives and corresponding videos.Summary
AI-Generated Summary