Il meglio di entrambi i mondi: integrazione di modelli linguistici e modelli di diffusione per la generazione di video
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation
March 6, 2025
Autori: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang
cs.AI
Abstract
I recenti progressi nella generazione testo-video (T2V) sono stati guidati da due paradigmi concorrenti: modelli linguistici autoregressivi e modelli di diffusione. Tuttavia, ciascun paradigma presenta limitazioni intrinseche: i modelli linguistici faticano con la qualità visiva e l'accumulo di errori, mentre i modelli di diffusione mancano di comprensione semantica e modellazione causale. In questo lavoro, proponiamo LanDiff, un framework ibrido che sinergizza i punti di forza di entrambi i paradigmi attraverso una generazione da grossolana a fine. La nostra architettura introduce tre innovazioni chiave: (1) un tokenizer semantico che comprime le caratteristiche visive 3D in rappresentazioni discrete 1D compatte attraverso una compressione semantica efficiente, raggiungendo un rapporto di compressione di 14.000 volte; (2) un modello linguistico che genera token semantici con relazioni semantiche di alto livello; (3) un modello di diffusione in streaming che affina la semantica grossolana in video ad alta fedeltà. Gli esperimenti mostrano che LanDiff, un modello da 5B, ottiene un punteggio di 85.43 sul benchmark VBench T2V, superando i modelli open-source all'avanguardia Hunyuan Video (13B) e altri modelli commerciali come Sora, Keling e Hailuo. Inoltre, il nostro modello raggiunge anche prestazioni all'avanguardia nella generazione di video lunghi, superando altri modelli open-source in questo campo. La nostra demo è disponibile all'indirizzo https://landiff.github.io/.
English
Recent advancements in text-to-video (T2V) generation have been driven by two
competing paradigms: autoregressive language models and diffusion models.
However, each paradigm has intrinsic limitations: language models struggle with
visual quality and error accumulation, while diffusion models lack semantic
understanding and causal modeling. In this work, we propose LanDiff, a hybrid
framework that synergizes the strengths of both paradigms through
coarse-to-fine generation. Our architecture introduces three key innovations:
(1) a semantic tokenizer that compresses 3D visual features into compact 1D
discrete representations through efficient semantic compression, achieving a
sim14,000times compression ratio; (2) a language model that generates
semantic tokens with high-level semantic relationships; (3) a streaming
diffusion model that refines coarse semantics into high-fidelity videos.
Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the
VBench T2V benchmark, surpassing the state-of-the-art open-source models
Hunyuan Video (13B) and other commercial models such as Sora, Keling, and
Hailuo. Furthermore, our model also achieves state-of-the-art performance in
long video generation, surpassing other open-source models in this field. Our
demo can be viewed at https://landiff.github.io/.Summary
AI-Generated Summary