ChatPaper.aiChatPaper

TokensGen: Sfruttare i Token Condensati per la Generazione di Video Lunghi

TokensGen: Harnessing Condensed Tokens for Long Video Generation

July 21, 2025
Autori: Wenqi Ouyang, Zeqi Xiao, Danni Yang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI

Abstract

Generare video lunghi e coerenti rappresenta una sfida complessa: sebbene i modelli generativi basati su diffusione producano clip brevi visivamente impressionanti, estenderli a durate maggiori spesso porta a colli di bottiglia nella memoria e a incoerenze a lungo termine. In questo articolo, proponiamo TokensGen, un innovativo framework a due stadi che sfrutta token condensati per affrontare questi problemi. Il nostro metodo scompone la generazione di video lunghi in tre compiti principali: (1) controllo semantico intra-clip, (2) controllo della coerenza a lungo termine e (3) transizione fluida inter-clip. In primo luogo, addestriamo To2V (Token-to-Video), un modello di diffusione per video brevi guidato da testo e token video, con un Video Tokenizer che condensa clip brevi in token semanticamente ricchi. In secondo luogo, introduciamo T2To (Text-to-Token), un trasformatore di diffusione per token video che genera tutti i token in una volta sola, garantendo coerenza globale tra le clip. Infine, durante l'inferenza, una strategia adattiva FIFO-Diffusion collega in modo fluido le clip adiacenti, riducendo gli artefatti ai bordi e migliorando le transizioni. I risultati sperimentali dimostrano che il nostro approccio migliora significativamente la coerenza temporale e contenutistica a lungo termine senza comportare un sovraccarico computazionale proibitivo. Sfruttando token condensati e modelli pre-addestrati per video brevi, il nostro metodo offre una soluzione scalabile e modulare per la generazione di video lunghi, aprendo nuove possibilità per la narrazione, la produzione cinematografica e le simulazioni immersive. Visita la nostra pagina del progetto all'indirizzo https://vicky0522.github.io/tokensgen-webpage/.
English
Generating consistent long videos is a complex challenge: while diffusion-based generative models generate visually impressive short clips, extending them to longer durations often leads to memory bottlenecks and long-term inconsistency. In this paper, we propose TokensGen, a novel two-stage framework that leverages condensed tokens to address these issues. Our method decomposes long video generation into three core tasks: (1) inner-clip semantic control, (2) long-term consistency control, and (3) inter-clip smooth transition. First, we train To2V (Token-to-Video), a short video diffusion model guided by text and video tokens, with a Video Tokenizer that condenses short clips into semantically rich tokens. Second, we introduce T2To (Text-to-Token), a video token diffusion transformer that generates all tokens at once, ensuring global consistency across clips. Finally, during inference, an adaptive FIFO-Diffusion strategy seamlessly connects adjacent clips, reducing boundary artifacts and enhancing smooth transitions. Experimental results demonstrate that our approach significantly enhances long-term temporal and content coherence without incurring prohibitive computational overhead. By leveraging condensed tokens and pre-trained short video models, our method provides a scalable, modular solution for long video generation, opening new possibilities for storytelling, cinematic production, and immersive simulations. Please see our project page at https://vicky0522.github.io/tokensgen-webpage/ .
PDF61July 22, 2025