O Melhor dos Dois Mundos: Integrando Modelos de Linguagem e Modelos de Difusão para Geração de Vídeo
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation
March 6, 2025
Autores: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang
cs.AI
Resumo
Os avanços recentes na geração de texto para vídeo (T2V) têm sido impulsionados por dois paradigmas concorrentes: modelos de linguagem autoregressivos e modelos de difusão. No entanto, cada paradigma possui limitações intrínsecas: os modelos de linguagem enfrentam dificuldades com a qualidade visual e o acúmulo de erros, enquanto os modelos de difusão carecem de compreensão semântica e modelagem causal. Neste trabalho, propomos o LanDiff, um framework híbrido que sinergiza os pontos fortes de ambos os paradigmas por meio de uma geração de granularidade grossa para fina. Nossa arquitetura introduz três inovações principais: (1) um tokenizador semântico que comprime características visuais 3D em representações discretas 1D compactas por meio de compressão semântica eficiente, alcançando uma taxa de compressão de 14.000 vezes; (2) um modelo de linguagem que gera tokens semânticos com relações semânticas de alto nível; (3) um modelo de difusão em fluxo que refina a semântica grossa em vídeos de alta fidelidade. Experimentos mostram que o LanDiff, um modelo de 5B, alcança uma pontuação de 85,43 no benchmark VBench T2V, superando os modelos de código aberto state-of-the-art, como Hunyuan Video (13B), e outros modelos comerciais, como Sora, Keling e Hailuo. Além disso, nosso modelo também alcança desempenho state-of-the-art na geração de vídeos longos, superando outros modelos de código aberto nesse campo. Nossa demonstração pode ser visualizada em https://landiff.github.io/.
English
Recent advancements in text-to-video (T2V) generation have been driven by two
competing paradigms: autoregressive language models and diffusion models.
However, each paradigm has intrinsic limitations: language models struggle with
visual quality and error accumulation, while diffusion models lack semantic
understanding and causal modeling. In this work, we propose LanDiff, a hybrid
framework that synergizes the strengths of both paradigms through
coarse-to-fine generation. Our architecture introduces three key innovations:
(1) a semantic tokenizer that compresses 3D visual features into compact 1D
discrete representations through efficient semantic compression, achieving a
sim14,000times compression ratio; (2) a language model that generates
semantic tokens with high-level semantic relationships; (3) a streaming
diffusion model that refines coarse semantics into high-fidelity videos.
Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the
VBench T2V benchmark, surpassing the state-of-the-art open-source models
Hunyuan Video (13B) and other commercial models such as Sora, Keling, and
Hailuo. Furthermore, our model also achieves state-of-the-art performance in
long video generation, surpassing other open-source models in this field. Our
demo can be viewed at https://landiff.github.io/.Summary
AI-Generated Summary