Lo mejor de ambos mundos: Integración de modelos de lenguaje y modelos de difusión para la generación de videos
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation
March 6, 2025
Autores: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang
cs.AI
Resumen
Los avances recientes en la generación de texto a video (T2V) han sido impulsados por dos paradigmas en competencia: los modelos de lenguaje autoregresivos y los modelos de difusión. Sin embargo, cada paradigma tiene limitaciones intrínsecas: los modelos de lenguaje luchan con la calidad visual y la acumulación de errores, mientras que los modelos de difusión carecen de comprensión semántica y modelado causal. En este trabajo, proponemos LanDiff, un marco híbrido que sinergiza las fortalezas de ambos paradigmas a través de una generación de lo general a lo detallado. Nuestra arquitectura introduce tres innovaciones clave: (1) un tokenizador semántico que comprime características visuales 3D en representaciones discretas 1D compactas mediante compresión semántica eficiente, logrando una relación de compresión de 14,000 veces; (2) un modelo de lenguaje que genera tokens semánticos con relaciones semánticas de alto nivel; (3) un modelo de difusión en flujo que refina la semántica general en videos de alta fidelidad. Los experimentos muestran que LanDiff, un modelo de 5B, alcanza una puntuación de 85.43 en el benchmark T2V de VBench, superando a los modelos de código abierto más avanzados como Hunyuan Video (13B) y otros modelos comerciales como Sora, Keling y Hailuo. Además, nuestro modelo también logra un rendimiento de vanguardia en la generación de videos largos, superando a otros modelos de código abierto en este campo. Nuestra demostración puede verse en https://landiff.github.io/.
English
Recent advancements in text-to-video (T2V) generation have been driven by two
competing paradigms: autoregressive language models and diffusion models.
However, each paradigm has intrinsic limitations: language models struggle with
visual quality and error accumulation, while diffusion models lack semantic
understanding and causal modeling. In this work, we propose LanDiff, a hybrid
framework that synergizes the strengths of both paradigms through
coarse-to-fine generation. Our architecture introduces three key innovations:
(1) a semantic tokenizer that compresses 3D visual features into compact 1D
discrete representations through efficient semantic compression, achieving a
sim14,000times compression ratio; (2) a language model that generates
semantic tokens with high-level semantic relationships; (3) a streaming
diffusion model that refines coarse semantics into high-fidelity videos.
Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the
VBench T2V benchmark, surpassing the state-of-the-art open-source models
Hunyuan Video (13B) and other commercial models such as Sora, Keling, and
Hailuo. Furthermore, our model also achieves state-of-the-art performance in
long video generation, surpassing other open-source models in this field. Our
demo can be viewed at https://landiff.github.io/.Summary
AI-Generated Summary