TokensGen: Benutten van Gecondenseerde Tokens voor Lange Videogeneratie
TokensGen: Harnessing Condensed Tokens for Long Video Generation
July 21, 2025
Auteurs: Wenqi Ouyang, Zeqi Xiao, Danni Yang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
Samenvatting
Het genereren van consistente lange video's is een complexe uitdaging: hoewel op diffusie gebaseerde generatieve modellen visueel indrukwekkende korte clips kunnen genereren, leidt het uitbreiden hiervan naar langere duur vaak tot geheugenproblemen en inconsistentie op de lange termijn. In dit artikel introduceren we TokensGen, een nieuw tweestaps raamwerk dat gebruikmaakt van gecondenseerde tokens om deze problemen aan te pakken. Onze methode verdeelt het genereren van lange video's in drie kerntaken: (1) semantische controle binnen clips, (2) controle van consistentie op de lange termijn, en (3) soepele overgangen tussen clips. Eerst trainen we To2V (Token-to-Video), een kort video diffusiemodel dat wordt gestuurd door tekst- en videotokens, met een Video Tokenizer die korte clips omzet in semantisch rijke tokens. Vervolgens introduceren we T2To (Text-to-Token), een video token diffusie transformer die alle tokens in één keer genereert, waardoor globale consistentie tussen clips wordt gewaarborgd. Ten slotte wordt tijdens de inferentie een adaptieve FIFO-Diffusie strategie gebruikt om aangrenzende clips naadloos met elkaar te verbinden, waardoor randartefacten worden verminderd en soepele overgangen worden verbeterd. Experimentele resultaten tonen aan dat onze aanpak de temporele en inhoudelijke samenhang op de lange termijn aanzienlijk verbetert zonder een onoverkomelijke rekenkundige overhead te veroorzaken. Door gebruik te maken van gecondenseerde tokens en vooraf getrainde kort video modellen, biedt onze methode een schaalbare, modulaire oplossing voor het genereren van lange video's, wat nieuwe mogelijkheden opent voor verhalenvertelling, filmproductie en immersieve simulaties. Bezoek onze projectpagina op https://vicky0522.github.io/tokensgen-webpage/.
English
Generating consistent long videos is a complex challenge: while
diffusion-based generative models generate visually impressive short clips,
extending them to longer durations often leads to memory bottlenecks and
long-term inconsistency. In this paper, we propose TokensGen, a novel two-stage
framework that leverages condensed tokens to address these issues. Our method
decomposes long video generation into three core tasks: (1) inner-clip semantic
control, (2) long-term consistency control, and (3) inter-clip smooth
transition. First, we train To2V (Token-to-Video), a short video diffusion
model guided by text and video tokens, with a Video Tokenizer that condenses
short clips into semantically rich tokens. Second, we introduce T2To
(Text-to-Token), a video token diffusion transformer that generates all tokens
at once, ensuring global consistency across clips. Finally, during inference,
an adaptive FIFO-Diffusion strategy seamlessly connects adjacent clips,
reducing boundary artifacts and enhancing smooth transitions. Experimental
results demonstrate that our approach significantly enhances long-term temporal
and content coherence without incurring prohibitive computational overhead. By
leveraging condensed tokens and pre-trained short video models, our method
provides a scalable, modular solution for long video generation, opening new
possibilities for storytelling, cinematic production, and immersive
simulations. Please see our project page at
https://vicky0522.github.io/tokensgen-webpage/ .