Das Beste aus beiden Welten: Integration von Sprachmodellen und Diffusionsmodellen für die Videogenerierung

Zusammenfassung

Jüngste Fortschritte in der Text-zu-Video (T2V)-Generierung wurden durch zwei konkurrierende Paradigmen vorangetrieben: autoregressive Sprachmodelle und Diffusionsmodelle. Jedes dieser Paradigmen weist jedoch inhärente Einschränkungen auf: Sprachmodelle kämpfen mit visueller Qualität und Fehlerakkumulation, während Diffusionsmodelle an semantischem Verständnis und kausaler Modellierung mangeln. In dieser Arbeit schlagen wir LanDiff vor, ein hybrides Framework, das die Stärken beider Paradigmen durch eine grob-zu-fein-Generierung synergistisch vereint. Unsere Architektur führt drei Schlüsselinnovationen ein: (1) einen semantischen Tokenizer, der 3D-Visualmerkmale durch effiziente semantische Kompression in kompakte 1D-diskrete Repräsentationen verdichtet und dabei ein Kompressionsverhältnis von 14.000:1 erreicht; (2) ein Sprachmodell, das semantische Tokens mit hochrangigen semantischen Beziehungen generiert; (3) ein Streaming-Diffusionsmodell, das grobe Semantik in hochauflösende Videos verfeinert. Experimente zeigen, dass LanDiff, ein 5B-Modell, im VBench T2V-Benchmark eine Punktzahl von 85,43 erreicht und damit die state-of-the-art Open-Source-Modelle Hunyuan Video (13B) sowie andere kommerzielle Modelle wie Sora, Keling und Hailuo übertrifft. Darüber hinaus erzielt unser Modell auch Spitzenleistungen in der Generierung langer Videos und übertrifft andere Open-Source-Modelle in diesem Bereich. Unsere Demo kann unter https://landiff.github.io/ eingesehen werden.

English

Recent advancements in text-to-video (T2V) generation have been driven by two competing paradigms: autoregressive language models and diffusion models. However, each paradigm has intrinsic limitations: language models struggle with visual quality and error accumulation, while diffusion models lack semantic understanding and causal modeling. In this work, we propose LanDiff, a hybrid framework that synergizes the strengths of both paradigms through coarse-to-fine generation. Our architecture introduces three key innovations: (1) a semantic tokenizer that compresses 3D visual features into compact 1D discrete representations through efficient semantic compression, achieving a sim14,000times compression ratio; (2) a language model that generates semantic tokens with high-level semantic relationships; (3) a streaming diffusion model that refines coarse semantics into high-fidelity videos. Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the VBench T2V benchmark, surpassing the state-of-the-art open-source models Hunyuan Video (13B) and other commercial models such as Sora, Keling, and Hailuo. Furthermore, our model also achieves state-of-the-art performance in long video generation, surpassing other open-source models in this field. Our demo can be viewed at https://landiff.github.io/.

Das Beste aus beiden Welten: Integration von Sprachmodellen und Diffusionsmodellen für die Videogenerierung

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

Zusammenfassung

Support