TokensGen: Aprovechamiento de Tokens Condensados para la Generación de Videos Largos
TokensGen: Harnessing Condensed Tokens for Long Video Generation
July 21, 2025
Autores: Wenqi Ouyang, Zeqi Xiao, Danni Yang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
Resumen
Generar videos largos y consistentes es un desafío complejo: aunque los modelos generativos basados en difusión producen clips cortos visualmente impresionantes, extenderlos a duraciones más largas a menudo genera cuellos de botella de memoria e inconsistencias a largo plazo. En este artículo, proponemos TokensGen, un marco novedoso de dos etapas que aprovecha tokens condensados para abordar estos problemas. Nuestro método descompone la generación de videos largos en tres tareas principales: (1) control semántico intra-clip, (2) control de consistencia a largo plazo y (3) transición suave entre clips. Primero, entrenamos To2V (Token-to-Video), un modelo de difusión de videos cortos guiado por texto y tokens de video, junto con un Video Tokenizer que condensa clips cortos en tokens semánticamente ricos. Segundo, introducimos T2To (Text-to-Token), un transformador de difusión de tokens de video que genera todos los tokens de una vez, asegurando consistencia global entre los clips. Finalmente, durante la inferencia, una estrategia adaptativa de FIFO-Difusión conecta de manera fluida los clips adyacentes, reduciendo artefactos en los límites y mejorando las transiciones suaves. Los resultados experimentales demuestran que nuestro enfoque mejora significativamente la coherencia temporal y de contenido a largo plazo sin incurrir en un costo computacional prohibitivo. Al aprovechar tokens condensados y modelos preentrenados de videos cortos, nuestro método ofrece una solución escalable y modular para la generación de videos largos, abriendo nuevas posibilidades para la narrativa, la producción cinematográfica y las simulaciones inmersivas. Consulte nuestra página del proyecto en https://vicky0522.github.io/tokensgen-webpage/.
English
Generating consistent long videos is a complex challenge: while
diffusion-based generative models generate visually impressive short clips,
extending them to longer durations often leads to memory bottlenecks and
long-term inconsistency. In this paper, we propose TokensGen, a novel two-stage
framework that leverages condensed tokens to address these issues. Our method
decomposes long video generation into three core tasks: (1) inner-clip semantic
control, (2) long-term consistency control, and (3) inter-clip smooth
transition. First, we train To2V (Token-to-Video), a short video diffusion
model guided by text and video tokens, with a Video Tokenizer that condenses
short clips into semantically rich tokens. Second, we introduce T2To
(Text-to-Token), a video token diffusion transformer that generates all tokens
at once, ensuring global consistency across clips. Finally, during inference,
an adaptive FIFO-Diffusion strategy seamlessly connects adjacent clips,
reducing boundary artifacts and enhancing smooth transitions. Experimental
results demonstrate that our approach significantly enhances long-term temporal
and content coherence without incurring prohibitive computational overhead. By
leveraging condensed tokens and pre-trained short video models, our method
provides a scalable, modular solution for long video generation, opening new
possibilities for storytelling, cinematic production, and immersive
simulations. Please see our project page at
https://vicky0522.github.io/tokensgen-webpage/ .