ChatPaper.aiChatPaper

TokensGen: 장기 비디오 생성을 위한 압축 토큰 활용

TokensGen: Harnessing Condensed Tokens for Long Video Generation

July 21, 2025
저자: Wenqi Ouyang, Zeqi Xiao, Danni Yang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI

초록

일관성 있는 긴 동영상 생성은 복잡한 과제입니다: 확산 기반 생성 모델이 시각적으로 인상적인 짧은 클립을 생성하지만, 이를 더 긴 지속 시간으로 확장하면 메모리 병목 현상과 장기적 불일치가 발생하는 경우가 많습니다. 본 논문에서는 이러한 문제를 해결하기 위해 압축된 토큰을 활용한 새로운 2단계 프레임워크인 TokensGen을 제안합니다. 우리의 방법은 긴 동영상 생성을 세 가지 핵심 작업으로 분해합니다: (1) 클립 내부 의미 제어, (2) 장기적 일관성 제어, (3) 클립 간 부드러운 전환. 먼저, 짧은 클립을 의미적으로 풍부한 토큰으로 압축하는 비디오 토크나이저(Video Tokenizer)와 함께 텍스트 및 비디오 토큰으로 안내되는 짧은 비디오 확산 모델인 To2V(Token-to-Video)를 학습합니다. 둘째, 모든 토큰을 한 번에 생성하여 클립 간 전역적 일관성을 보장하는 비디오 토큰 확산 트랜스포머인 T2To(Text-to-Token)를 소개합니다. 마지막으로, 추론 과정에서 적응형 FIFO-Diffusion 전략을 통해 인접한 클립을 원활하게 연결하여 경계 아티팩트를 줄이고 부드러운 전환을 강화합니다. 실험 결과는 우리의 접근 방식이 과도한 계산 오버헤드 없이 장기적 시간적 및 내용적 일관성을 크게 향상시킴을 보여줍니다. 압축된 토큰과 사전 학습된 짧은 비디오 모델을 활용함으로써, 우리의 방법은 스토리텔링, 영화 제작, 몰입형 시뮬레이션을 위한 새로운 가능성을 열며, 확장 가능하고 모듈화된 긴 동영상 생성 솔루션을 제공합니다. 자세한 내용은 프로젝트 페이지(https://vicky0522.github.io/tokensgen-webpage/)를 참조하십시오.
English
Generating consistent long videos is a complex challenge: while diffusion-based generative models generate visually impressive short clips, extending them to longer durations often leads to memory bottlenecks and long-term inconsistency. In this paper, we propose TokensGen, a novel two-stage framework that leverages condensed tokens to address these issues. Our method decomposes long video generation into three core tasks: (1) inner-clip semantic control, (2) long-term consistency control, and (3) inter-clip smooth transition. First, we train To2V (Token-to-Video), a short video diffusion model guided by text and video tokens, with a Video Tokenizer that condenses short clips into semantically rich tokens. Second, we introduce T2To (Text-to-Token), a video token diffusion transformer that generates all tokens at once, ensuring global consistency across clips. Finally, during inference, an adaptive FIFO-Diffusion strategy seamlessly connects adjacent clips, reducing boundary artifacts and enhancing smooth transitions. Experimental results demonstrate that our approach significantly enhances long-term temporal and content coherence without incurring prohibitive computational overhead. By leveraging condensed tokens and pre-trained short video models, our method provides a scalable, modular solution for long video generation, opening new possibilities for storytelling, cinematic production, and immersive simulations. Please see our project page at https://vicky0522.github.io/tokensgen-webpage/ .
PDF61July 22, 2025