Das Beste aus beiden Welten: Integration von Sprachmodellen und Diffusionsmodellen für die Videogenerierung
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation
March 6, 2025
Autoren: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Text-zu-Video (T2V)-Generierung wurden durch zwei konkurrierende Paradigmen vorangetrieben: autoregressive Sprachmodelle und Diffusionsmodelle. Jedes dieser Paradigmen weist jedoch inhärente Einschränkungen auf: Sprachmodelle kämpfen mit visueller Qualität und Fehlerakkumulation, während Diffusionsmodelle an semantischem Verständnis und kausaler Modellierung mangeln. In dieser Arbeit schlagen wir LanDiff vor, ein hybrides Framework, das die Stärken beider Paradigmen durch eine grob-zu-fein-Generierung synergistisch vereint. Unsere Architektur führt drei Schlüsselinnovationen ein: (1) einen semantischen Tokenizer, der 3D-Visualmerkmale durch effiziente semantische Kompression in kompakte 1D-diskrete Repräsentationen verdichtet und dabei ein Kompressionsverhältnis von 14.000:1 erreicht; (2) ein Sprachmodell, das semantische Tokens mit hochrangigen semantischen Beziehungen generiert; (3) ein Streaming-Diffusionsmodell, das grobe Semantik in hochauflösende Videos verfeinert. Experimente zeigen, dass LanDiff, ein 5B-Modell, im VBench T2V-Benchmark eine Punktzahl von 85,43 erreicht und damit die state-of-the-art Open-Source-Modelle Hunyuan Video (13B) sowie andere kommerzielle Modelle wie Sora, Keling und Hailuo übertrifft. Darüber hinaus erzielt unser Modell auch Spitzenleistungen in der Generierung langer Videos und übertrifft andere Open-Source-Modelle in diesem Bereich. Unsere Demo kann unter https://landiff.github.io/ eingesehen werden.
English
Recent advancements in text-to-video (T2V) generation have been driven by two
competing paradigms: autoregressive language models and diffusion models.
However, each paradigm has intrinsic limitations: language models struggle with
visual quality and error accumulation, while diffusion models lack semantic
understanding and causal modeling. In this work, we propose LanDiff, a hybrid
framework that synergizes the strengths of both paradigms through
coarse-to-fine generation. Our architecture introduces three key innovations:
(1) a semantic tokenizer that compresses 3D visual features into compact 1D
discrete representations through efficient semantic compression, achieving a
sim14,000times compression ratio; (2) a language model that generates
semantic tokens with high-level semantic relationships; (3) a streaming
diffusion model that refines coarse semantics into high-fidelity videos.
Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the
VBench T2V benchmark, surpassing the state-of-the-art open-source models
Hunyuan Video (13B) and other commercial models such as Sora, Keling, and
Hailuo. Furthermore, our model also achieves state-of-the-art performance in
long video generation, surpassing other open-source models in this field. Our
demo can be viewed at https://landiff.github.io/.Summary
AI-Generated Summary