Divot : La diffusion alimente le tokenizeur vidéo pour la compréhension et la génération
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation
December 5, 2024
Auteurs: Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan
cs.AI
Résumé
Ces dernières années, on observe un intérêt croissant pour l'unification de la compréhension et de la génération d'images au sein des Grands Modèles de Langage (GML). Cet intérêt croissant nous a incités à explorer l'extension de cette unification aux vidéos. Le défi principal réside dans le développement d'un tokeniseur vidéo polyvalent qui capture à la fois les caractéristiques spatiales et les dynamiques temporelles des vidéos pour obtenir des représentations pour les GML, et ces représentations peuvent ensuite être décodées en clips vidéo réalistes pour permettre la génération de vidéos. Dans ce travail, nous présentons Divot, un Tokeniseur Vidéo Alimenté par Diffusion, qui exploite le processus de diffusion pour l'apprentissage de représentations vidéo auto-supervisé. Nous postulons que si un modèle de diffusion vidéo peut efficacement débruiter des clips vidéo en prenant les caractéristiques d'un tokeniseur vidéo comme condition, alors le tokeniseur a capturé avec succès des informations spatiales et temporelles robustes. De plus, le modèle de diffusion vidéo fonctionne intrinsèquement comme un dé-tokeniseur, décodant les vidéos à partir de leurs représentations. En s'appuyant sur le tokeniseur Divot, nous présentons Divot-Vicuna à travers l'autorégression vidéo-texte et la génération texte-vidéo en modélisant les distributions des caractéristiques Divot à valeurs continues avec un Modèle de Mélange Gaussien. Les résultats expérimentaux démontrent que notre tokeniseur vidéo basé sur la diffusion, lorsqu'il est intégré à un GML pré-entraîné, atteint des performances compétitives sur divers bancs d'essai de compréhension et de génération de vidéos. Le Divot-Vicuna ajusté aux instructions excelle également dans la narration vidéo, générant des récits entrelacés et les vidéos correspondantes.
English
In recent years, there has been a significant surge of interest in unifying
image comprehension and generation within Large Language Models (LLMs). This
growing interest has prompted us to explore extending this unification to
videos. The core challenge lies in developing a versatile video tokenizer that
captures both the spatial characteristics and temporal dynamics of videos to
obtain representations for LLMs, and the representations can be further decoded
into realistic video clips to enable video generation. In this work, we
introduce Divot, a Diffusion-Powered Video Tokenizer, which leverages the
diffusion process for self-supervised video representation learning. We posit
that if a video diffusion model can effectively de-noise video clips by taking
the features of a video tokenizer as the condition, then the tokenizer has
successfully captured robust spatial and temporal information. Additionally,
the video diffusion model inherently functions as a de-tokenizer, decoding
videos from their representations. Building upon the Divot tokenizer, we
present Divot-Vicuna through video-to-text autoregression and text-to-video
generation by modeling the distributions of continuous-valued Divot features
with a Gaussian Mixture Model. Experimental results demonstrate that our
diffusion-based video tokenizer, when integrated with a pre-trained LLM,
achieves competitive performance across various video comprehension and
generation benchmarks. The instruction tuned Divot-Vicuna also excels in video
storytelling, generating interleaved narratives and corresponding videos.Summary
AI-Generated Summary