TokensGen: Nutzung kondensierter Tokens für die Erzeugung langer Videos
TokensGen: Harnessing Condensed Tokens for Long Video Generation
July 21, 2025
papers.authors: Wenqi Ouyang, Zeqi Xiao, Danni Yang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
papers.abstract
Die Erzeugung konsistenter langer Videos stellt eine komplexe Herausforderung dar: Während diffusionsbasierte generative Modelle visuell beeindruckende Kurzclips erzeugen, führt ihre Erweiterung auf längere Dauer oft zu Speicherengpässen und langfristigen Inkonsistenzen. In diesem Artikel schlagen wir TokensGen vor, ein neuartiges zweistufiges Framework, das kondensierte Tokens nutzt, um diese Probleme zu adressieren. Unser Ansatz zerlegt die Erzeugung langer Videos in drei Kernaufgaben: (1) semantische Steuerung innerhalb von Clips, (2) langfristige Konsistenzkontrolle und (3) nahtlose Übergänge zwischen Clips. Zunächst trainieren wir To2V (Token-to-Video), ein Kurzvideo-Diffusionsmodell, das durch Text- und Video-Tokens gesteuert wird, mit einem Video-Tokenizer, der kurze Clips in semantisch reiche Tokens kondensiert. Zweitens führen wir T2To (Text-to-Token) ein, einen Video-Token-Diffusionstransformer, der alle Tokens auf einmal erzeugt und so die globale Konsistenz über Clips hinweg sicherstellt. Schließlich verbindet während der Inferenz eine adaptive FIFO-Diffusion-Strategie benachbarte Clips nahtlos, reduziert Grenzartefakte und verbessert die Übergänge. Experimentelle Ergebnisse zeigen, dass unser Ansatz die langfristige zeitliche und inhaltliche Kohärenz signifikant verbessert, ohne prohibitive Rechenkosten zu verursachen. Durch die Nutzung kondensierter Tokens und vortrainierter Kurzvideo-Modelle bietet unsere Methode eine skalierbare, modulare Lösung für die Erzeugung langer Videos und eröffnet neue Möglichkeiten für Geschichtenerzählung, Filmproduktion und immersive Simulationen. Weitere Informationen finden Sie auf unserer Projektseite unter https://vicky0522.github.io/tokensgen-webpage/.
English
Generating consistent long videos is a complex challenge: while
diffusion-based generative models generate visually impressive short clips,
extending them to longer durations often leads to memory bottlenecks and
long-term inconsistency. In this paper, we propose TokensGen, a novel two-stage
framework that leverages condensed tokens to address these issues. Our method
decomposes long video generation into three core tasks: (1) inner-clip semantic
control, (2) long-term consistency control, and (3) inter-clip smooth
transition. First, we train To2V (Token-to-Video), a short video diffusion
model guided by text and video tokens, with a Video Tokenizer that condenses
short clips into semantically rich tokens. Second, we introduce T2To
(Text-to-Token), a video token diffusion transformer that generates all tokens
at once, ensuring global consistency across clips. Finally, during inference,
an adaptive FIFO-Diffusion strategy seamlessly connects adjacent clips,
reducing boundary artifacts and enhancing smooth transitions. Experimental
results demonstrate that our approach significantly enhances long-term temporal
and content coherence without incurring prohibitive computational overhead. By
leveraging condensed tokens and pre-trained short video models, our method
provides a scalable, modular solution for long video generation, opening new
possibilities for storytelling, cinematic production, and immersive
simulations. Please see our project page at
https://vicky0522.github.io/tokensgen-webpage/ .