Autoregressieve Adversariële Na-Training voor Real-Time Interactieve Videogeneratie
Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation
June 11, 2025
Auteurs: Shanchuan Lin, Ceyuan Yang, Hao He, Jianwen Jiang, Yuxi Ren, Xin Xia, Yang Zhao, Xuefeng Xiao, Lu Jiang
cs.AI
Samenvatting
Bestaande grootschalige videogeneratiemodellen zijn rekenintensief, wat adoptie in realtime en interactieve toepassingen belemmert. In dit werk stellen we autoregressieve adversariële na-training (AAPT) voor om een vooraf getraind latent videodiffusiemodel om te zetten in een realtime, interactieve videogenerator. Ons model genereert autoregressief één latent frame per keer met behulp van een enkele neurale functie-evaluatie (1NFE). Het model kan het resultaat in realtime naar de gebruiker streamen en interactieve reacties ontvangen als controles om het volgende latent frame te genereren. In tegenstelling tot bestaande benaderingen, verkent onze methode adversariële training als een effectief paradigma voor autoregressieve generatie. Dit stelt ons niet alleen in staat om een architectuur te ontwerpen die efficiënter is voor éénstapsgeneratie terwijl de KV-cache volledig wordt benut, maar maakt het ook mogelijk om het model te trainen in een student-forcing-manier, wat effectief blijkt te zijn in het verminderen van foutaccumulatie tijdens lange videogeneratie. Onze experimenten tonen aan dat ons 8B-model realtime, 24fps, streaming videogeneratie bereikt bij een resolutie van 736x416 op een enkele H100, of 1280x720 op 8xH100 tot een minuut lang (1440 frames). Bezoek onze onderzoekswebsite op https://seaweed-apt.com/2.
English
Existing large-scale video generation models are computationally intensive,
preventing adoption in real-time and interactive applications. In this work, we
propose autoregressive adversarial post-training (AAPT) to transform a
pre-trained latent video diffusion model into a real-time, interactive video
generator. Our model autoregressively generates a latent frame at a time using
a single neural function evaluation (1NFE). The model can stream the result to
the user in real time and receive interactive responses as controls to generate
the next latent frame. Unlike existing approaches, our method explores
adversarial training as an effective paradigm for autoregressive generation.
This not only allows us to design an architecture that is more efficient for
one-step generation while fully utilizing the KV cache, but also enables
training the model in a student-forcing manner that proves to be effective in
reducing error accumulation during long video generation. Our experiments
demonstrate that our 8B model achieves real-time, 24fps, streaming video
generation at 736x416 resolution on a single H100, or 1280x720 on 8xH100 up to
a minute long (1440 frames). Visit our research website at
https://seaweed-apt.com/2