ChatPaper.aiChatPaper

TokensGen: Aprovechamiento de Tokens Condensados para la Generación de Videos Largos

TokensGen: Harnessing Condensed Tokens for Long Video Generation

July 21, 2025
Autores: Wenqi Ouyang, Zeqi Xiao, Danni Yang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI

Resumen

Generar videos largos y consistentes es un desafío complejo: aunque los modelos generativos basados en difusión producen clips cortos visualmente impresionantes, extenderlos a duraciones más largas a menudo genera cuellos de botella de memoria e inconsistencias a largo plazo. En este artículo, proponemos TokensGen, un marco novedoso de dos etapas que aprovecha tokens condensados para abordar estos problemas. Nuestro método descompone la generación de videos largos en tres tareas principales: (1) control semántico intra-clip, (2) control de consistencia a largo plazo y (3) transición suave entre clips. Primero, entrenamos To2V (Token-to-Video), un modelo de difusión de videos cortos guiado por texto y tokens de video, junto con un Video Tokenizer que condensa clips cortos en tokens semánticamente ricos. Segundo, introducimos T2To (Text-to-Token), un transformador de difusión de tokens de video que genera todos los tokens de una vez, asegurando consistencia global entre los clips. Finalmente, durante la inferencia, una estrategia adaptativa de FIFO-Difusión conecta de manera fluida los clips adyacentes, reduciendo artefactos en los límites y mejorando las transiciones suaves. Los resultados experimentales demuestran que nuestro enfoque mejora significativamente la coherencia temporal y de contenido a largo plazo sin incurrir en un costo computacional prohibitivo. Al aprovechar tokens condensados y modelos preentrenados de videos cortos, nuestro método ofrece una solución escalable y modular para la generación de videos largos, abriendo nuevas posibilidades para la narrativa, la producción cinematográfica y las simulaciones inmersivas. Consulte nuestra página del proyecto en https://vicky0522.github.io/tokensgen-webpage/.
English
Generating consistent long videos is a complex challenge: while diffusion-based generative models generate visually impressive short clips, extending them to longer durations often leads to memory bottlenecks and long-term inconsistency. In this paper, we propose TokensGen, a novel two-stage framework that leverages condensed tokens to address these issues. Our method decomposes long video generation into three core tasks: (1) inner-clip semantic control, (2) long-term consistency control, and (3) inter-clip smooth transition. First, we train To2V (Token-to-Video), a short video diffusion model guided by text and video tokens, with a Video Tokenizer that condenses short clips into semantically rich tokens. Second, we introduce T2To (Text-to-Token), a video token diffusion transformer that generates all tokens at once, ensuring global consistency across clips. Finally, during inference, an adaptive FIFO-Diffusion strategy seamlessly connects adjacent clips, reducing boundary artifacts and enhancing smooth transitions. Experimental results demonstrate that our approach significantly enhances long-term temporal and content coherence without incurring prohibitive computational overhead. By leveraging condensed tokens and pre-trained short video models, our method provides a scalable, modular solution for long video generation, opening new possibilities for storytelling, cinematic production, and immersive simulations. Please see our project page at https://vicky0522.github.io/tokensgen-webpage/ .
PDF61July 22, 2025