Autoregresivo Adversarial de Post-Entrenamiento para la Generación de Video Interactivo en Tiempo Real
Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation
June 11, 2025
Autores: Shanchuan Lin, Ceyuan Yang, Hao He, Jianwen Jiang, Yuxi Ren, Xin Xia, Yang Zhao, Xuefeng Xiao, Lu Jiang
cs.AI
Resumen
Los modelos existentes de generación de video a gran escala son computacionalmente intensivos, lo que impide su adopción en aplicaciones interactivas y en tiempo real. En este trabajo, proponemos el entrenamiento adversario autoregresivo posterior (AAPT, por sus siglas en inglés) para transformar un modelo de difusión de video latente preentrenado en un generador de video interactivo y en tiempo real. Nuestro modelo genera de manera autoregresiva un fotograma latente a la vez utilizando una única evaluación de función neuronal (1NFE). El modelo puede transmitir el resultado al usuario en tiempo real y recibir respuestas interactivas como controles para generar el siguiente fotograma latente. A diferencia de los enfoques existentes, nuestro método explora el entrenamiento adversario como un paradigma efectivo para la generación autoregresiva. Esto no solo nos permite diseñar una arquitectura más eficiente para la generación en un solo paso mientras se utiliza completamente la caché KV, sino que también posibilita entrenar el modelo de manera forzada por el estudiante, lo que ha demostrado ser efectivo para reducir la acumulación de errores durante la generación de videos largos. Nuestros experimentos demuestran que nuestro modelo de 8B logra la generación de video en tiempo real a 24 fps, con una resolución de 736x416 en una sola H100, o 1280x720 en 8xH100, hasta un minuto de duración (1440 fotogramas). Visite nuestro sitio web de investigación en https://seaweed-apt.com/2.
English
Existing large-scale video generation models are computationally intensive,
preventing adoption in real-time and interactive applications. In this work, we
propose autoregressive adversarial post-training (AAPT) to transform a
pre-trained latent video diffusion model into a real-time, interactive video
generator. Our model autoregressively generates a latent frame at a time using
a single neural function evaluation (1NFE). The model can stream the result to
the user in real time and receive interactive responses as controls to generate
the next latent frame. Unlike existing approaches, our method explores
adversarial training as an effective paradigm for autoregressive generation.
This not only allows us to design an architecture that is more efficient for
one-step generation while fully utilizing the KV cache, but also enables
training the model in a student-forcing manner that proves to be effective in
reducing error accumulation during long video generation. Our experiments
demonstrate that our 8B model achieves real-time, 24fps, streaming video
generation at 736x416 resolution on a single H100, or 1280x720 on 8xH100 up to
a minute long (1440 frames). Visit our research website at
https://seaweed-apt.com/2