실시간 인터랙티브 비디오 생성을 위한 자기회귀적 적대적 사후 훈련
Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation
June 11, 2025
저자: Shanchuan Lin, Ceyuan Yang, Hao He, Jianwen Jiang, Yuxi Ren, Xin Xia, Yang Zhao, Xuefeng Xiao, Lu Jiang
cs.AI
초록
기존의 대규모 비디오 생성 모델은 계산 집약적이어서 실시간 및 상호작용형 애플리케이션에서의 활용이 제한적이었습니다. 본 연구에서는 사전 학습된 잠재 비디오 확산 모델을 실시간 상호작용형 비디오 생성기로 변환하기 위해 자기회귀적 적대적 사후 학습(AAPT)을 제안합니다. 우리의 모델은 단일 신경망 함수 평가(1NFE)를 통해 한 번에 하나의 잠재 프레임을 자기회귀적으로 생성합니다. 이 모델은 결과를 실시간으로 사용자에게 스트리밍하고, 다음 잠재 프레임을 생성하기 위한 제어 입력으로 상호작용 응답을 받을 수 있습니다. 기존 접근법과 달리, 우리의 방법은 자기회귀 생성에 적대적 학습을 효과적인 패러다임으로 탐구합니다. 이를 통해 단일 단계 생성을 위해 더 효율적이면서도 KV 캐시를 완전히 활용하는 아키텍처를 설계할 수 있을 뿐만 아니라, 장기 비디오 생성 중 오류 누적을 줄이는 데 효과적인 학생 강제(student-forcing) 방식으로 모델을 학습시킬 수 있습니다. 실험 결과, 우리의 8B 모델은 단일 H100에서 736x416 해상도로 실시간 24fps 스트리밍 비디오 생성을 달성했으며, 8xH100에서는 최대 1분 길이(1440 프레임)의 1280x720 해상도 비디오를 생성할 수 있었습니다. 자세한 내용은 연구 웹사이트(https://seaweed-apt.com/2)를 방문해 주세요.
English
Existing large-scale video generation models are computationally intensive,
preventing adoption in real-time and interactive applications. In this work, we
propose autoregressive adversarial post-training (AAPT) to transform a
pre-trained latent video diffusion model into a real-time, interactive video
generator. Our model autoregressively generates a latent frame at a time using
a single neural function evaluation (1NFE). The model can stream the result to
the user in real time and receive interactive responses as controls to generate
the next latent frame. Unlike existing approaches, our method explores
adversarial training as an effective paradigm for autoregressive generation.
This not only allows us to design an architecture that is more efficient for
one-step generation while fully utilizing the KV cache, but also enables
training the model in a student-forcing manner that proves to be effective in
reducing error accumulation during long video generation. Our experiments
demonstrate that our 8B model achieves real-time, 24fps, streaming video
generation at 736x416 resolution on a single H100, or 1280x720 on 8xH100 up to
a minute long (1440 frames). Visit our research website at
https://seaweed-apt.com/2