TokensGen: Использование сжатых токенов для генерации длинных видео
TokensGen: Harnessing Condensed Tokens for Long Video Generation
July 21, 2025
Авторы: Wenqi Ouyang, Zeqi Xiao, Danni Yang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
Аннотация
Генерация последовательных длинных видео представляет собой сложную задачу: хотя диффузионные генеративные модели создают визуально впечатляющие короткие клипы, их расширение на более длительные временные промежутки часто приводит к проблемам с памятью и нарушению долгосрочной согласованности. В данной работе мы предлагаем TokensGen, новую двухэтапную структуру, которая использует сжатые токены для решения этих проблем. Наш метод разбивает генерацию длинных видео на три основные задачи: (1) семантическое управление внутри клипа, (2) контроль долгосрочной согласованности и (3) плавный переход между клипами. Сначала мы обучаем To2V (Token-to-Video), модель диффузии для коротких видео, управляемую текстовыми и видео токенами, с использованием Video Tokenizer, который сжимает короткие клипы в семантически насыщенные токены. Затем мы представляем T2To (Text-to-Token), трансформер диффузии видео токенов, который генерирует все токены одновременно, обеспечивая глобальную согласованность между клипами. Наконец, на этапе вывода адаптивная стратегия FIFO-Diffusion плавно соединяет соседние клипы, уменьшая артефакты на границах и улучшая плавность переходов. Экспериментальные результаты показывают, что наш подход значительно улучшает долгосрочную временную и содержательную согласованность без чрезмерных вычислительных затрат. Используя сжатые токены и предварительно обученные модели для коротких видео, наш метод предоставляет масштабируемое и модульное решение для генерации длинных видео, открывая новые возможности для повествования, кинопроизводства и иммерсивных симуляций. Дополнительную информацию можно найти на нашей странице проекта: https://vicky0522.github.io/tokensgen-webpage/.
English
Generating consistent long videos is a complex challenge: while
diffusion-based generative models generate visually impressive short clips,
extending them to longer durations often leads to memory bottlenecks and
long-term inconsistency. In this paper, we propose TokensGen, a novel two-stage
framework that leverages condensed tokens to address these issues. Our method
decomposes long video generation into three core tasks: (1) inner-clip semantic
control, (2) long-term consistency control, and (3) inter-clip smooth
transition. First, we train To2V (Token-to-Video), a short video diffusion
model guided by text and video tokens, with a Video Tokenizer that condenses
short clips into semantically rich tokens. Second, we introduce T2To
(Text-to-Token), a video token diffusion transformer that generates all tokens
at once, ensuring global consistency across clips. Finally, during inference,
an adaptive FIFO-Diffusion strategy seamlessly connects adjacent clips,
reducing boundary artifacts and enhancing smooth transitions. Experimental
results demonstrate that our approach significantly enhances long-term temporal
and content coherence without incurring prohibitive computational overhead. By
leveraging condensed tokens and pre-trained short video models, our method
provides a scalable, modular solution for long video generation, opening new
possibilities for storytelling, cinematic production, and immersive
simulations. Please see our project page at
https://vicky0522.github.io/tokensgen-webpage/ .