Addestramento Avversariale Autoregressivo Post-Allenamento per la Generazione di Video Interattivi in Tempo Reale
Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation
June 11, 2025
Autori: Shanchuan Lin, Ceyuan Yang, Hao He, Jianwen Jiang, Yuxi Ren, Xin Xia, Yang Zhao, Xuefeng Xiao, Lu Jiang
cs.AI
Abstract
I modelli esistenti per la generazione di video su larga scala sono computazionalmente intensivi, impedendo l'adozione in applicazioni in tempo reale e interattive. In questo lavoro, proponiamo l'addestramento postumo avversariale autoregressivo (AAPT) per trasformare un modello pre-addestrato di diffusione latente di video in un generatore di video in tempo reale e interattivo. Il nostro modello genera autoregressivamente un frame latente alla volta utilizzando una singola valutazione di funzione neurale (1NFE). Il modello può trasmettere il risultato all'utente in tempo reale e ricevere risposte interattive come controlli per generare il frame latente successivo. A differenza degli approcci esistenti, il nostro metodo esplora l'addestramento avversariale come paradigma efficace per la generazione autoregressiva. Ciò non solo ci permette di progettare un'architettura più efficiente per la generazione in un singolo passaggio sfruttando appieno la cache KV, ma consente anche di addestrare il modello in modalità student-forcing, che si dimostra efficace nel ridurre l'accumulo di errori durante la generazione di video lunghi. I nostri esperimenti dimostrano che il nostro modello da 8B raggiunge la generazione di video in streaming in tempo reale a 24fps, con una risoluzione di 736x416 su un singolo H100, o 1280x720 su 8xH100 fino a un minuto di durata (1440 frame). Visita il nostro sito di ricerca all'indirizzo https://seaweed-apt.com/2.
English
Existing large-scale video generation models are computationally intensive,
preventing adoption in real-time and interactive applications. In this work, we
propose autoregressive adversarial post-training (AAPT) to transform a
pre-trained latent video diffusion model into a real-time, interactive video
generator. Our model autoregressively generates a latent frame at a time using
a single neural function evaluation (1NFE). The model can stream the result to
the user in real time and receive interactive responses as controls to generate
the next latent frame. Unlike existing approaches, our method explores
adversarial training as an effective paradigm for autoregressive generation.
This not only allows us to design an architecture that is more efficient for
one-step generation while fully utilizing the KV cache, but also enables
training the model in a student-forcing manner that proves to be effective in
reducing error accumulation during long video generation. Our experiments
demonstrate that our 8B model achieves real-time, 24fps, streaming video
generation at 736x416 resolution on a single H100, or 1280x720 on 8xH100 up to
a minute long (1440 frames). Visit our research website at
https://seaweed-apt.com/2