SemanticGen : Génération vidéo dans l'espace sémantique
SemanticGen: Video Generation in Semantic Space
December 23, 2025
papers.authors: Jianhong Bai, Xiaoshi Wu, Xintao Wang, Fu Xiao, Yuanxing Zhang, Qinghe Wang, Xiaoyu Shi, Menghan Xia, Zuozhu Liu, Haoji Hu, Pengfei Wan, Kun Gai
cs.AI
papers.abstract
Les modèles génératifs vidéo de pointe apprennent généralement la distribution des latents vidéo dans l'espace VAE et les mappent aux pixels à l'aide d'un décodeur VAE. Bien que cette approche puisse générer des vidéos de haute qualité, elle souffre d'une convergence lente et est coûteuse en calculs pour générer de longues vidéos. Dans cet article, nous présentons SemanticGen, une nouvelle solution pour résoudre ces limitations en générant des vidéos dans l'espace sémantique. Notre idée principale est que, en raison de la redondance inhérente aux vidéos, le processus de génération devrait commencer dans un espace sémantique compact et de haut niveau pour la planification globale, suivi par l'ajout de détails haute fréquence, plutôt que de modéliser directement un vaste ensemble de tokens vidéo de bas niveau en utilisant l'attention bidirectionnelle. SemanticGen adopte un processus de génération en deux étapes. Dans la première étape, un modèle de diffusion génère des caractéristiques vidéo sémantiques compactes, qui définissent la structure globale de la vidéo. Dans la deuxième étape, un autre modèle de diffusion génère les latents VAE conditionnés sur ces caractéristiques sémantiques pour produire le résultat final. Nous observons que la génération dans l'espace sémantique conduit à une convergence plus rapide par rapport à l'espace latent VAE. Notre méthode est également efficace et efficiente en calculs lorsqu'elle est étendue à la génération de vidéos longues. Des expériences approfondies démontrent que SemanticGen produit des vidéos de haute qualité et surpasse les approches de pointe ainsi que des bases de référence solides.
English
State-of-the-art video generative models typically learn the distribution of video latents in the VAE space and map them to pixels using a VAE decoder. While this approach can generate high-quality videos, it suffers from slow convergence and is computationally expensive when generating long videos. In this paper, we introduce SemanticGen, a novel solution to address these limitations by generating videos in the semantic space. Our main insight is that, due to the inherent redundancy in videos, the generation process should begin in a compact, high-level semantic space for global planning, followed by the addition of high-frequency details, rather than directly modeling a vast set of low-level video tokens using bi-directional attention. SemanticGen adopts a two-stage generation process. In the first stage, a diffusion model generates compact semantic video features, which define the global layout of the video. In the second stage, another diffusion model generates VAE latents conditioned on these semantic features to produce the final output. We observe that generation in the semantic space leads to faster convergence compared to the VAE latent space. Our method is also effective and computationally efficient when extended to long video generation. Extensive experiments demonstrate that SemanticGen produces high-quality videos and outperforms state-of-the-art approaches and strong baselines.