Het beste van twee werelden: Integratie van taalmodelen en diffusiemodellen voor videogeneratie
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation
March 6, 2025
Auteurs: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang
cs.AI
Samenvatting
Recente vooruitgang in tekst-naar-video (T2V) generatie is gedreven door twee concurrerende paradigma's: autoregressieve taalmmodellen en diffusiemodellen. Elk paradigma heeft echter intrinsieke beperkingen: taalmmodellen worstelen met visuele kwaliteit en foutaccumulatie, terwijl diffusiemodellen tekortschieten in semantisch begrip en causaal modelleren. In dit werk stellen we LanDiff voor, een hybride framework dat de sterke punten van beide paradigma's combineert via grof-naar-fijne generatie. Onze architectuur introduceert drie belangrijke innovaties: (1) een semantische tokenizer die 3D-visuele kenmerken comprimeert tot compacte 1D-discrete representaties door efficiënte semantische compressie, wat een compressieverhouding van 14.000 keer bereikt; (2) een taalmodel dat semantische tokens genereert met hoogwaardige semantische relaties; (3) een streaming diffusiemodel dat grove semantiek verfijnt tot hoogwaardige video's. Experimenten tonen aan dat LanDiff, een model van 5B, een score van 85,43 behaalt op de VBench T2V-benchmark, waarmee het de state-of-the-art open-source modellen Hunyuan Video (13B) en andere commerciële modellen zoals Sora, Keling en Hailuo overtreft. Bovendien behaalt ons model ook state-of-the-art prestaties in lange videogeneratie, waarmee het andere open-source modellen op dit gebied overtreft. Onze demo is te bekijken op https://landiff.github.io/.
English
Recent advancements in text-to-video (T2V) generation have been driven by two
competing paradigms: autoregressive language models and diffusion models.
However, each paradigm has intrinsic limitations: language models struggle with
visual quality and error accumulation, while diffusion models lack semantic
understanding and causal modeling. In this work, we propose LanDiff, a hybrid
framework that synergizes the strengths of both paradigms through
coarse-to-fine generation. Our architecture introduces three key innovations:
(1) a semantic tokenizer that compresses 3D visual features into compact 1D
discrete representations through efficient semantic compression, achieving a
sim14,000times compression ratio; (2) a language model that generates
semantic tokens with high-level semantic relationships; (3) a streaming
diffusion model that refines coarse semantics into high-fidelity videos.
Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the
VBench T2V benchmark, surpassing the state-of-the-art open-source models
Hunyuan Video (13B) and other commercial models such as Sora, Keling, and
Hailuo. Furthermore, our model also achieves state-of-the-art performance in
long video generation, surpassing other open-source models in this field. Our
demo can be viewed at https://landiff.github.io/.Summary
AI-Generated Summary