ChatPaper.aiChatPaper

Il meglio di entrambi i mondi: integrazione di modelli linguistici e modelli di diffusione per la generazione di video

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

March 6, 2025
Autori: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang
cs.AI

Abstract

I recenti progressi nella generazione testo-video (T2V) sono stati guidati da due paradigmi concorrenti: modelli linguistici autoregressivi e modelli di diffusione. Tuttavia, ciascun paradigma presenta limitazioni intrinseche: i modelli linguistici faticano con la qualità visiva e l'accumulo di errori, mentre i modelli di diffusione mancano di comprensione semantica e modellazione causale. In questo lavoro, proponiamo LanDiff, un framework ibrido che sinergizza i punti di forza di entrambi i paradigmi attraverso una generazione da grossolana a fine. La nostra architettura introduce tre innovazioni chiave: (1) un tokenizer semantico che comprime le caratteristiche visive 3D in rappresentazioni discrete 1D compatte attraverso una compressione semantica efficiente, raggiungendo un rapporto di compressione di 14.000 volte; (2) un modello linguistico che genera token semantici con relazioni semantiche di alto livello; (3) un modello di diffusione in streaming che affina la semantica grossolana in video ad alta fedeltà. Gli esperimenti mostrano che LanDiff, un modello da 5B, ottiene un punteggio di 85.43 sul benchmark VBench T2V, superando i modelli open-source all'avanguardia Hunyuan Video (13B) e altri modelli commerciali come Sora, Keling e Hailuo. Inoltre, il nostro modello raggiunge anche prestazioni all'avanguardia nella generazione di video lunghi, superando altri modelli open-source in questo campo. La nostra demo è disponibile all'indirizzo https://landiff.github.io/.
English
Recent advancements in text-to-video (T2V) generation have been driven by two competing paradigms: autoregressive language models and diffusion models. However, each paradigm has intrinsic limitations: language models struggle with visual quality and error accumulation, while diffusion models lack semantic understanding and causal modeling. In this work, we propose LanDiff, a hybrid framework that synergizes the strengths of both paradigms through coarse-to-fine generation. Our architecture introduces three key innovations: (1) a semantic tokenizer that compresses 3D visual features into compact 1D discrete representations through efficient semantic compression, achieving a sim14,000times compression ratio; (2) a language model that generates semantic tokens with high-level semantic relationships; (3) a streaming diffusion model that refines coarse semantics into high-fidelity videos. Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the VBench T2V benchmark, surpassing the state-of-the-art open-source models Hunyuan Video (13B) and other commercial models such as Sora, Keling, and Hailuo. Furthermore, our model also achieves state-of-the-art performance in long video generation, surpassing other open-source models in this field. Our demo can be viewed at https://landiff.github.io/.

Summary

AI-Generated Summary

PDF91March 7, 2025