Divot: Diffusie Voedt Video Tokenizer voor Begrip en Generatie
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation
December 5, 2024
Auteurs: Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan
cs.AI
Samenvatting
In de afgelopen jaren is er een aanzienlijke toename van interesse geweest in het verenigen van beeldbegrip en -generatie binnen Grote Taalmodellen (LLM's). Deze groeiende interesse heeft ons aangespoord om deze vereniging uit te breiden naar video's. De kernuitdaging ligt in het ontwikkelen van een veelzijdige videotokenizer die zowel de ruimtelijke kenmerken als de temporele dynamiek van video's vastlegt om representaties voor LLM's te verkrijgen, en de representaties kunnen verder worden gedecodeerd tot realistische videoclips om videogeneratie mogelijk te maken. In dit werk introduceren we Divot, een Diffusie-Aangedreven VideoTokenizer, die gebruikmaakt van het diffusieproces voor zelfbegeleidende videorepresentatie-leren. We veronderstellen dat als een video-diffusiemodel videoclips effectief kan denoiseren door de kenmerken van een videotokenizer als de conditie te nemen, de tokenizer met succes robuuste ruimtelijke en temporele informatie heeft vastgelegd. Bovendien fungeert het video-diffusiemodel op intrinsieke wijze als een detokenizer, waarbij video's worden gedecodeerd uit hun representaties. Voortbouwend op de Divot-tokenizer presenteren we Divot-Vicuna via video-naar-tekst autoregressie en tekst-naar-video generatie door de distributies van continue Divot-kenmerken te modelleren met een Gaussische Mengmodel. Experimentele resultaten tonen aan dat onze diffusie-gebaseerde videotokenizer, wanneer geïntegreerd met een voorgeleerd LLM, concurrerende prestaties behaalt over verschillende video-begrip en -generatie benchmarks. De instructie afgestemde Divot-Vicuna blinkt ook uit in videoverhalen, waarbij geïnterlinieerde verhalen en bijbehorende video's worden gegenereerd.
English
In recent years, there has been a significant surge of interest in unifying
image comprehension and generation within Large Language Models (LLMs). This
growing interest has prompted us to explore extending this unification to
videos. The core challenge lies in developing a versatile video tokenizer that
captures both the spatial characteristics and temporal dynamics of videos to
obtain representations for LLMs, and the representations can be further decoded
into realistic video clips to enable video generation. In this work, we
introduce Divot, a Diffusion-Powered Video Tokenizer, which leverages the
diffusion process for self-supervised video representation learning. We posit
that if a video diffusion model can effectively de-noise video clips by taking
the features of a video tokenizer as the condition, then the tokenizer has
successfully captured robust spatial and temporal information. Additionally,
the video diffusion model inherently functions as a de-tokenizer, decoding
videos from their representations. Building upon the Divot tokenizer, we
present Divot-Vicuna through video-to-text autoregression and text-to-video
generation by modeling the distributions of continuous-valued Divot features
with a Gaussian Mixture Model. Experimental results demonstrate that our
diffusion-based video tokenizer, when integrated with a pre-trained LLM,
achieves competitive performance across various video comprehension and
generation benchmarks. The instruction tuned Divot-Vicuna also excels in video
storytelling, generating interleaved narratives and corresponding videos.