O Melhor dos Dois Mundos: Integrando Modelos de Linguagem e Modelos de Difusão para Geração de Vídeo

Resumo

Os avanços recentes na geração de texto para vídeo (T2V) têm sido impulsionados por dois paradigmas concorrentes: modelos de linguagem autoregressivos e modelos de difusão. No entanto, cada paradigma possui limitações intrínsecas: os modelos de linguagem enfrentam dificuldades com a qualidade visual e o acúmulo de erros, enquanto os modelos de difusão carecem de compreensão semântica e modelagem causal. Neste trabalho, propomos o LanDiff, um framework híbrido que sinergiza os pontos fortes de ambos os paradigmas por meio de uma geração de granularidade grossa para fina. Nossa arquitetura introduz três inovações principais: (1) um tokenizador semântico que comprime características visuais 3D em representações discretas 1D compactas por meio de compressão semântica eficiente, alcançando uma taxa de compressão de 14.000 vezes; (2) um modelo de linguagem que gera tokens semânticos com relações semânticas de alto nível; (3) um modelo de difusão em fluxo que refina a semântica grossa em vídeos de alta fidelidade. Experimentos mostram que o LanDiff, um modelo de 5B, alcança uma pontuação de 85,43 no benchmark VBench T2V, superando os modelos de código aberto state-of-the-art, como Hunyuan Video (13B), e outros modelos comerciais, como Sora, Keling e Hailuo. Além disso, nosso modelo também alcança desempenho state-of-the-art na geração de vídeos longos, superando outros modelos de código aberto nesse campo. Nossa demonstração pode ser visualizada em https://landiff.github.io/.

English

Recent advancements in text-to-video (T2V) generation have been driven by two competing paradigms: autoregressive language models and diffusion models. However, each paradigm has intrinsic limitations: language models struggle with visual quality and error accumulation, while diffusion models lack semantic understanding and causal modeling. In this work, we propose LanDiff, a hybrid framework that synergizes the strengths of both paradigms through coarse-to-fine generation. Our architecture introduces three key innovations: (1) a semantic tokenizer that compresses 3D visual features into compact 1D discrete representations through efficient semantic compression, achieving a sim14,000times compression ratio; (2) a language model that generates semantic tokens with high-level semantic relationships; (3) a streaming diffusion model that refines coarse semantics into high-fidelity videos. Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the VBench T2V benchmark, surpassing the state-of-the-art open-source models Hunyuan Video (13B) and other commercial models such as Sora, Keling, and Hailuo. Furthermore, our model also achieves state-of-the-art performance in long video generation, surpassing other open-source models in this field. Our demo can be viewed at https://landiff.github.io/.

O Melhor dos Dois Mundos: Integrando Modelos de Linguagem e Modelos de Difusão para Geração de Vídeo

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

Resumo

Summary

Support

Support