ChatPaper.aiChatPaper

O Melhor dos Dois Mundos: Integrando Modelos de Linguagem e Modelos de Difusão para Geração de Vídeo

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

March 6, 2025
Autores: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang
cs.AI

Resumo

Os avanços recentes na geração de texto para vídeo (T2V) têm sido impulsionados por dois paradigmas concorrentes: modelos de linguagem autoregressivos e modelos de difusão. No entanto, cada paradigma possui limitações intrínsecas: os modelos de linguagem enfrentam dificuldades com a qualidade visual e o acúmulo de erros, enquanto os modelos de difusão carecem de compreensão semântica e modelagem causal. Neste trabalho, propomos o LanDiff, um framework híbrido que sinergiza os pontos fortes de ambos os paradigmas por meio de uma geração de granularidade grossa para fina. Nossa arquitetura introduz três inovações principais: (1) um tokenizador semântico que comprime características visuais 3D em representações discretas 1D compactas por meio de compressão semântica eficiente, alcançando uma taxa de compressão de 14.000 vezes; (2) um modelo de linguagem que gera tokens semânticos com relações semânticas de alto nível; (3) um modelo de difusão em fluxo que refina a semântica grossa em vídeos de alta fidelidade. Experimentos mostram que o LanDiff, um modelo de 5B, alcança uma pontuação de 85,43 no benchmark VBench T2V, superando os modelos de código aberto state-of-the-art, como Hunyuan Video (13B), e outros modelos comerciais, como Sora, Keling e Hailuo. Além disso, nosso modelo também alcança desempenho state-of-the-art na geração de vídeos longos, superando outros modelos de código aberto nesse campo. Nossa demonstração pode ser visualizada em https://landiff.github.io/.
English
Recent advancements in text-to-video (T2V) generation have been driven by two competing paradigms: autoregressive language models and diffusion models. However, each paradigm has intrinsic limitations: language models struggle with visual quality and error accumulation, while diffusion models lack semantic understanding and causal modeling. In this work, we propose LanDiff, a hybrid framework that synergizes the strengths of both paradigms through coarse-to-fine generation. Our architecture introduces three key innovations: (1) a semantic tokenizer that compresses 3D visual features into compact 1D discrete representations through efficient semantic compression, achieving a sim14,000times compression ratio; (2) a language model that generates semantic tokens with high-level semantic relationships; (3) a streaming diffusion model that refines coarse semantics into high-fidelity videos. Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the VBench T2V benchmark, surpassing the state-of-the-art open-source models Hunyuan Video (13B) and other commercial models such as Sora, Keling, and Hailuo. Furthermore, our model also achieves state-of-the-art performance in long video generation, surpassing other open-source models in this field. Our demo can be viewed at https://landiff.github.io/.

Summary

AI-Generated Summary

PDF91March 7, 2025