ChatPaper.aiChatPaper

TokensGen: Aproveitando Tokens Condensados para Geração de Vídeos Longos

TokensGen: Harnessing Condensed Tokens for Long Video Generation

July 21, 2025
Autores: Wenqi Ouyang, Zeqi Xiao, Danni Yang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI

Resumo

Gerar vídeos longos e consistentes é um desafio complexo: embora modelos generativos baseados em difusão produzam clipes curtos visualmente impressionantes, estendê-los para durações maiores frequentemente resulta em gargalos de memória e inconsistências de longo prazo. Neste artigo, propomos o TokensGen, uma nova estrutura de duas etapas que utiliza tokens condensados para abordar esses problemas. Nosso método decompõe a geração de vídeos longos em três tarefas principais: (1) controle semântico intra-clipe, (2) controle de consistência de longo prazo e (3) transição suave entre clipes. Primeiro, treinamos o To2V (Token-to-Video), um modelo de difusão para vídeos curtos guiado por texto e tokens de vídeo, com um Video Tokenizer que condensa clipes curtos em tokens semanticamente ricos. Em seguida, introduzimos o T2To (Text-to-Token), um transformador de difusão de tokens de vídeo que gera todos os tokens de uma vez, garantindo consistência global entre os clipes. Por fim, durante a inferência, uma estratégia adaptativa de FIFO-Diffusion conecta suavemente clipes adjacentes, reduzindo artefatos de borda e melhorando as transições suaves. Resultados experimentais demonstram que nossa abordagem melhora significativamente a coerência temporal e de conteúdo de longo prazo sem incorrer em sobrecarga computacional proibitiva. Ao aproveitar tokens condensados e modelos pré-treinados de vídeos curtos, nosso método oferece uma solução escalável e modular para a geração de vídeos longos, abrindo novas possibilidades para narrativas, produção cinematográfica e simulações imersivas. Consulte nossa página do projeto em https://vicky0522.github.io/tokensgen-webpage/.
English
Generating consistent long videos is a complex challenge: while diffusion-based generative models generate visually impressive short clips, extending them to longer durations often leads to memory bottlenecks and long-term inconsistency. In this paper, we propose TokensGen, a novel two-stage framework that leverages condensed tokens to address these issues. Our method decomposes long video generation into three core tasks: (1) inner-clip semantic control, (2) long-term consistency control, and (3) inter-clip smooth transition. First, we train To2V (Token-to-Video), a short video diffusion model guided by text and video tokens, with a Video Tokenizer that condenses short clips into semantically rich tokens. Second, we introduce T2To (Text-to-Token), a video token diffusion transformer that generates all tokens at once, ensuring global consistency across clips. Finally, during inference, an adaptive FIFO-Diffusion strategy seamlessly connects adjacent clips, reducing boundary artifacts and enhancing smooth transitions. Experimental results demonstrate that our approach significantly enhances long-term temporal and content coherence without incurring prohibitive computational overhead. By leveraging condensed tokens and pre-trained short video models, our method provides a scalable, modular solution for long video generation, opening new possibilities for storytelling, cinematic production, and immersive simulations. Please see our project page at https://vicky0522.github.io/tokensgen-webpage/ .
PDF61July 22, 2025