オートリグレッシブ・アドバーサリアル・ポストトレーニングによるリアルタイムインタラクティブビデオ生成
Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation
June 11, 2025
著者: Shanchuan Lin, Ceyuan Yang, Hao He, Jianwen Jiang, Yuxi Ren, Xin Xia, Yang Zhao, Xuefeng Xiao, Lu Jiang
cs.AI
要旨
既存の大規模ビデオ生成モデルは計算負荷が高く、リアルタイムおよびインタラクティブなアプリケーションでの採用が妨げられています。本研究では、事前学習済みの潜在ビデオ拡散モデルをリアルタイムかつインタラクティブなビデオ生成器に変換するための自己回帰的敵対的ポストトレーニング(AAPT)を提案します。我々のモデルは、単一のニューラル関数評価(1NFE)を用いて、一度に1つの潜在フレームを自己回帰的に生成します。このモデルは、結果をリアルタイムでユーザーにストリーミングし、次の潜在フレームを生成するための制御としてインタラクティブな応答を受け取ることができます。既存のアプローチとは異なり、我々の手法は自己回帰的生成のための効果的なパラダイムとして敵対的トレーニングを探求します。これにより、1ステップ生成に対してより効率的なアーキテクチャを設計しつつ、KVキャッシュを完全に活用することが可能となるだけでなく、長いビデオ生成中の誤差蓄積を効果的に低減する学生強制方式でのモデルトレーニングも可能となります。実験結果から、我々の8Bモデルは、単一のH100上で736x416解像度、または8xH100上で1280x720解像度のリアルタイム24fpsストリーミングビデオ生成を最大1分間(1440フレーム)達成することが示されました。詳細は研究ウェブサイト(https://seaweed-apt.com/2)をご覧ください。
English
Existing large-scale video generation models are computationally intensive,
preventing adoption in real-time and interactive applications. In this work, we
propose autoregressive adversarial post-training (AAPT) to transform a
pre-trained latent video diffusion model into a real-time, interactive video
generator. Our model autoregressively generates a latent frame at a time using
a single neural function evaluation (1NFE). The model can stream the result to
the user in real time and receive interactive responses as controls to generate
the next latent frame. Unlike existing approaches, our method explores
adversarial training as an effective paradigm for autoregressive generation.
This not only allows us to design an architecture that is more efficient for
one-step generation while fully utilizing the KV cache, but also enables
training the model in a student-forcing manner that proves to be effective in
reducing error accumulation during long video generation. Our experiments
demonstrate that our 8B model achieves real-time, 24fps, streaming video
generation at 736x416 resolution on a single H100, or 1280x720 on 8xH100 up to
a minute long (1440 frames). Visit our research website at
https://seaweed-apt.com/2