Le meilleur des deux mondes : Intégration des modèles de langage et des modèles de diffusion pour la génération vidéo

Résumé

Les récents progrès dans la génération de texte-à-vidéo (T2V) ont été portés par deux paradigmes concurrents : les modèles de langage autorégressifs et les modèles de diffusion. Cependant, chaque paradigme présente des limitations intrinsèques : les modèles de langage peinent à atteindre une qualité visuelle élevée et accumulent des erreurs, tandis que les modèles de diffusion manquent de compréhension sémantique et de modélisation causale. Dans ce travail, nous proposons LanDiff, un cadre hybride qui combine les forces des deux paradigmes grâce à une génération allant du grossier au fin. Notre architecture introduit trois innovations clés : (1) un tokeniseur sémantique qui compresse les caractéristiques visuelles 3D en représentations discrètes 1D compactes via une compression sémantique efficace, atteignant un taux de compression de 14 000 fois ; (2) un modèle de langage qui génère des tokens sémantiques avec des relations sémantiques de haut niveau ; (3) un modèle de diffusion en flux qui affine la sémantique grossière en vidéos haute fidélité. Les expériences montrent que LanDiff, un modèle de 5 milliards de paramètres, obtient un score de 85,43 sur le benchmark T2V VBench, surpassant les modèles open-source de pointe comme Hunyuan Video (13 milliards) et d'autres modèles commerciaux tels que Sora, Keling et Hailuo. De plus, notre modèle atteint également des performances de pointe dans la génération de vidéos longues, surpassant les autres modèles open-source dans ce domaine. Notre démo est disponible à l'adresse https://landiff.github.io/.

English

Recent advancements in text-to-video (T2V) generation have been driven by two competing paradigms: autoregressive language models and diffusion models. However, each paradigm has intrinsic limitations: language models struggle with visual quality and error accumulation, while diffusion models lack semantic understanding and causal modeling. In this work, we propose LanDiff, a hybrid framework that synergizes the strengths of both paradigms through coarse-to-fine generation. Our architecture introduces three key innovations: (1) a semantic tokenizer that compresses 3D visual features into compact 1D discrete representations through efficient semantic compression, achieving a sim14,000times compression ratio; (2) a language model that generates semantic tokens with high-level semantic relationships; (3) a streaming diffusion model that refines coarse semantics into high-fidelity videos. Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the VBench T2V benchmark, surpassing the state-of-the-art open-source models Hunyuan Video (13B) and other commercial models such as Sora, Keling, and Hailuo. Furthermore, our model also achieves state-of-the-art performance in long video generation, surpassing other open-source models in this field. Our demo can be viewed at https://landiff.github.io/.

Le meilleur des deux mondes : Intégration des modèles de langage et des modèles de diffusion pour la génération vidéo

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

Résumé

Support