Divot: Diffusion befeuert den Video-Tokenizer für Verständnis und Generierung
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation
December 5, 2024
Autoren: Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan
cs.AI
Zusammenfassung
In den letzten Jahren gab es ein signifikantes Interesse an der Vereinheitlichung von Bildverständnis und -erzeugung innerhalb großer Sprachmodelle (LLMs). Dieses wachsende Interesse hat uns dazu veranlasst, diese Vereinheitlichung auf Videos auszudehnen. Die Kernherausforderung besteht darin, einen vielseitigen Video-Tokenizer zu entwickeln, der sowohl die räumlichen Merkmale als auch die zeitlichen Dynamiken von Videos erfasst, um Repräsentationen für LLMs zu erhalten, die wiederum in realistische Videoclips umgewandelt werden können, um die Videogenerierung zu ermöglichen. In dieser Arbeit stellen wir Divot vor, einen Video-Tokenizer mit Diffusionsantrieb, der den Diffusionsprozess für das selbstüberwachte Lernen von Video-Repräsentationen nutzt. Wir nehmen an, dass, wenn ein Video-Diffusionsmodell Videoclips effektiv durch Rauschunterdrückung bearbeiten kann, indem es die Merkmale eines Video-Tokenizer als Bedingung verwendet, der Tokenizer robuste räumliche und zeitliche Informationen erfolgreich erfasst hat. Darüber hinaus fungiert das Video-Diffusionsmodell inhärent als De-Tokenizer, der Videos aus ihren Repräsentationen decodiert. Aufbauend auf dem Divot-Tokenizer präsentieren wir Divot-Vicuna durch Video-zu-Text-Autoregression und Text-zu-Video-Erzeugung durch Modellierung der Verteilungen von kontinuierlich bewerteten Divot-Merkmalen mit einem Gaußschen Gemischmodell. Experimentelle Ergebnisse zeigen, dass unser auf Diffusion basierender Video-Tokenizer, wenn er mit einem vorab trainierten LLM integriert wird, eine wettbewerbsfähige Leistung in verschiedenen Videoverständnis- und -erzeugungs-Benchmarks erzielt. Der instruktionsabgestimmte Divot-Vicuna glänzt auch in der Videogeschichtenerzählung, indem er ineinandergreifende Erzählungen und entsprechende Videos generiert.
English
In recent years, there has been a significant surge of interest in unifying
image comprehension and generation within Large Language Models (LLMs). This
growing interest has prompted us to explore extending this unification to
videos. The core challenge lies in developing a versatile video tokenizer that
captures both the spatial characteristics and temporal dynamics of videos to
obtain representations for LLMs, and the representations can be further decoded
into realistic video clips to enable video generation. In this work, we
introduce Divot, a Diffusion-Powered Video Tokenizer, which leverages the
diffusion process for self-supervised video representation learning. We posit
that if a video diffusion model can effectively de-noise video clips by taking
the features of a video tokenizer as the condition, then the tokenizer has
successfully captured robust spatial and temporal information. Additionally,
the video diffusion model inherently functions as a de-tokenizer, decoding
videos from their representations. Building upon the Divot tokenizer, we
present Divot-Vicuna through video-to-text autoregression and text-to-video
generation by modeling the distributions of continuous-valued Divot features
with a Gaussian Mixture Model. Experimental results demonstrate that our
diffusion-based video tokenizer, when integrated with a pre-trained LLM,
achieves competitive performance across various video comprehension and
generation benchmarks. The instruction tuned Divot-Vicuna also excels in video
storytelling, generating interleaved narratives and corresponding videos.Summary
AI-Generated Summary