Autoregressive adversarische Nachbearbeitung für die Echtzeit-Interaktive Videogenerierung
Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation
June 11, 2025
Autoren: Shanchuan Lin, Ceyuan Yang, Hao He, Jianwen Jiang, Yuxi Ren, Xin Xia, Yang Zhao, Xuefeng Xiao, Lu Jiang
cs.AI
Zusammenfassung
Bestehende groß angelegte Modelle zur Videogenerierung sind rechenintensiv, was ihre Anwendung in Echtzeit- und interaktiven Anwendungen verhindert. In dieser Arbeit schlagen wir autoregressives adversarisches Nachtraining (AAPT) vor, um ein vortrainiertes latentes Videodiffusionsmodell in einen Echtzeit- und interaktiven Videogenerator zu transformieren. Unser Modell generiert autoregressiv jeweils einen latenten Frame mithilfe einer einzigen neuronalen Funktionsauswertung (1NFE). Das Modell kann das Ergebnis in Echtzeit an den Benutzer streamen und interaktive Rückmeldungen als Steuerungselemente empfangen, um den nächsten latenten Frame zu generieren. Im Gegensatz zu bestehenden Ansätzen untersucht unsere Methode adversarisches Training als effektives Paradigma für die autoregressive Generierung. Dies ermöglicht es uns nicht nur, eine Architektur zu entwerfen, die für die Ein-Schritt-Generierung effizienter ist und gleichzeitig den KV-Cache vollständig nutzt, sondern erlaubt es auch, das Modell in einem Student-Forcing-Verfahren zu trainieren, das sich als wirksam bei der Reduzierung von Fehlerakkumulation während der Generierung langer Videos erweist. Unsere Experimente zeigen, dass unser 8B-Modell eine Echtzeit-Videogenerierung mit 24 Bildern pro Sekunde bei einer Auflösung von 736x416 auf einer einzelnen H100 oder 1280x720 auf 8xH100 bis zu einer Minute Länge (1440 Frames) erreicht. Besuchen Sie unsere Forschungswebsite unter https://seaweed-apt.com/2.
English
Existing large-scale video generation models are computationally intensive,
preventing adoption in real-time and interactive applications. In this work, we
propose autoregressive adversarial post-training (AAPT) to transform a
pre-trained latent video diffusion model into a real-time, interactive video
generator. Our model autoregressively generates a latent frame at a time using
a single neural function evaluation (1NFE). The model can stream the result to
the user in real time and receive interactive responses as controls to generate
the next latent frame. Unlike existing approaches, our method explores
adversarial training as an effective paradigm for autoregressive generation.
This not only allows us to design an architecture that is more efficient for
one-step generation while fully utilizing the KV cache, but also enables
training the model in a student-forcing manner that proves to be effective in
reducing error accumulation during long video generation. Our experiments
demonstrate that our 8B model achieves real-time, 24fps, streaming video
generation at 736x416 resolution on a single H100, or 1280x720 on 8xH100 up to
a minute long (1440 frames). Visit our research website at
https://seaweed-apt.com/2