TokensGen: 長尺動画生成のための凝縮トークンの活用
TokensGen: Harnessing Condensed Tokens for Long Video Generation
July 21, 2025
著者: Wenqi Ouyang, Zeqi Xiao, Danni Yang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
要旨
一貫性のある長尺動画の生成は複雑な課題である。拡散モデルに基づく生成モデルは視覚的に印象的な短尺クリップを生成するが、これを長時間に拡張するとメモリのボトルネックや長期的な不整合が生じやすい。本論文では、これらの課題を解決するために凝縮されたトークンを活用する新しい二段階フレームワーク「TokensGen」を提案する。我々の手法は、長尺動画生成を以下の3つの核心タスクに分解する:(1) クリップ内の意味的制御、(2) 長期的な一貫性の制御、(3) クリップ間の滑らかな遷移。まず、テキストと動画トークンに導かれた短尺動画拡散モデル「To2V(Token-to-Video)」を、短尺クリップを意味的に豊かなトークンに凝縮する「Video Tokenizer」と共に学習する。次に、全てのトークンを一度に生成し、クリップ間のグローバルな一貫性を保証する動画トークン拡散トランスフォーマー「T2To(Text-to-Token)」を導入する。最後に、推論時には適応型のFIFO-Diffusion戦略を用いて隣接するクリップをシームレスに接続し、境界のアーティファクトを低減して滑らかな遷移を実現する。実験結果は、我々のアプローチが計算コストを過度に増加させることなく、長期的な時間的および内容的な一貫性を大幅に向上させることを示している。凝縮されたトークンと事前学習済みの短尺動画モデルを活用することで、本手法は長尺動画生成に対するスケーラブルでモジュール型のソリューションを提供し、ストーリーテリング、映画制作、没入型シミュレーションにおける新たな可能性を開くものである。詳細はプロジェクトページ(https://vicky0522.github.io/tokensgen-webpage/)を参照されたい。
English
Generating consistent long videos is a complex challenge: while
diffusion-based generative models generate visually impressive short clips,
extending them to longer durations often leads to memory bottlenecks and
long-term inconsistency. In this paper, we propose TokensGen, a novel two-stage
framework that leverages condensed tokens to address these issues. Our method
decomposes long video generation into three core tasks: (1) inner-clip semantic
control, (2) long-term consistency control, and (3) inter-clip smooth
transition. First, we train To2V (Token-to-Video), a short video diffusion
model guided by text and video tokens, with a Video Tokenizer that condenses
short clips into semantically rich tokens. Second, we introduce T2To
(Text-to-Token), a video token diffusion transformer that generates all tokens
at once, ensuring global consistency across clips. Finally, during inference,
an adaptive FIFO-Diffusion strategy seamlessly connects adjacent clips,
reducing boundary artifacts and enhancing smooth transitions. Experimental
results demonstrate that our approach significantly enhances long-term temporal
and content coherence without incurring prohibitive computational overhead. By
leveraging condensed tokens and pre-trained short video models, our method
provides a scalable, modular solution for long video generation, opening new
possibilities for storytelling, cinematic production, and immersive
simulations. Please see our project page at
https://vicky0522.github.io/tokensgen-webpage/ .