TokensGen : Exploitation des tokens condensés pour la génération de vidéos longues
TokensGen: Harnessing Condensed Tokens for Long Video Generation
July 21, 2025
papers.authors: Wenqi Ouyang, Zeqi Xiao, Danni Yang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
papers.abstract
La génération de vidéos longues et cohérentes représente un défi complexe : bien que les modèles génératifs basés sur la diffusion produisent des clips courts visuellement impressionnants, leur extension à des durées plus longues entraîne souvent des goulots d'étranglement mémoire et des incohérences à long terme. Dans cet article, nous proposons TokensGen, un nouveau cadre en deux étapes qui exploite des tokens condensés pour résoudre ces problèmes. Notre méthode décompose la génération de vidéos longues en trois tâches principales : (1) le contrôle sémantique intra-clip, (2) le contrôle de la cohérence à long terme, et (3) la transition fluide inter-clips. Tout d'abord, nous entraînons To2V (Token-to-Video), un modèle de diffusion pour vidéos courtes guidé par des tokens textuels et vidéo, avec un Tokenizer Vidéo qui condense les clips courts en tokens sémantiquement riches. Ensuite, nous introduisons T2To (Text-to-Token), un transformeur de diffusion de tokens vidéo qui génère tous les tokens en une seule fois, garantissant une cohérence globale entre les clips. Enfin, lors de l'inférence, une stratégie FIFO-Diffusion adaptative connecte de manière fluide les clips adjacents, réduisant les artefacts de bordure et améliorant les transitions. Les résultats expérimentaux montrent que notre approche améliore significativement la cohérence temporelle et de contenu à long terme sans entraîner de surcharge computationnelle prohibitive. En exploitant des tokens condensés et des modèles pré-entraînés pour les vidéos courtes, notre méthode offre une solution modulaire et évolutive pour la génération de vidéos longues, ouvrant de nouvelles possibilités pour la narration, la production cinématographique et les simulations immersives. Consultez notre page de projet à l'adresse https://vicky0522.github.io/tokensgen-webpage/.
English
Generating consistent long videos is a complex challenge: while
diffusion-based generative models generate visually impressive short clips,
extending them to longer durations often leads to memory bottlenecks and
long-term inconsistency. In this paper, we propose TokensGen, a novel two-stage
framework that leverages condensed tokens to address these issues. Our method
decomposes long video generation into three core tasks: (1) inner-clip semantic
control, (2) long-term consistency control, and (3) inter-clip smooth
transition. First, we train To2V (Token-to-Video), a short video diffusion
model guided by text and video tokens, with a Video Tokenizer that condenses
short clips into semantically rich tokens. Second, we introduce T2To
(Text-to-Token), a video token diffusion transformer that generates all tokens
at once, ensuring global consistency across clips. Finally, during inference,
an adaptive FIFO-Diffusion strategy seamlessly connects adjacent clips,
reducing boundary artifacts and enhancing smooth transitions. Experimental
results demonstrate that our approach significantly enhances long-term temporal
and content coherence without incurring prohibitive computational overhead. By
leveraging condensed tokens and pre-trained short video models, our method
provides a scalable, modular solution for long video generation, opening new
possibilities for storytelling, cinematic production, and immersive
simulations. Please see our project page at
https://vicky0522.github.io/tokensgen-webpage/ .