Авторегрессивное состязательное пост-обучение для генерации видео в реальном времени с интерактивным взаимодействием
Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation
June 11, 2025
Авторы: Shanchuan Lin, Ceyuan Yang, Hao He, Jianwen Jiang, Yuxi Ren, Xin Xia, Yang Zhao, Xuefeng Xiao, Lu Jiang
cs.AI
Аннотация
Существующие крупномасштабные модели генерации видео требуют значительных вычислительных ресурсов, что препятствует их использованию в приложениях, требующих работы в реальном времени и интерактивности. В данной работе мы предлагаем метод авторегрессивного адверсариального пост-обучения (AAPT), который преобразует предварительно обученную латентную диффузионную модель видео в генератор видео, работающий в реальном времени и поддерживающий интерактивность. Наша модель авторегрессивно генерирует один латентный кадр за раз, используя одну оценку нейронной функции (1NFE). Модель может передавать результат пользователю в реальном времени и получать интерактивные ответы в качестве управляющих сигналов для генерации следующего латентного кадра. В отличие от существующих подходов, наш метод исследует адверсариальное обучение как эффективную парадигму для авторегрессивной генерации. Это не только позволяет нам разработать архитектуру, более эффективную для одношаговой генерации с полным использованием кэша ключей и значений (KV cache), но также делает возможным обучение модели в режиме "студенческого форсинга", что доказало свою эффективность в снижении накопления ошибок при генерации длинных видео. Наши эксперименты показывают, что наша модель объемом 8 миллиардов параметров достигает генерации видео в реальном времени с частотой 24 кадра в секунду и разрешением 736x416 на одном GPU H100 или 1280x720 на 8 GPU H100 для видео длительностью до минуты (1440 кадров). Посетите наш исследовательский сайт по адресу https://seaweed-apt.com/2.
English
Existing large-scale video generation models are computationally intensive,
preventing adoption in real-time and interactive applications. In this work, we
propose autoregressive adversarial post-training (AAPT) to transform a
pre-trained latent video diffusion model into a real-time, interactive video
generator. Our model autoregressively generates a latent frame at a time using
a single neural function evaluation (1NFE). The model can stream the result to
the user in real time and receive interactive responses as controls to generate
the next latent frame. Unlike existing approaches, our method explores
adversarial training as an effective paradigm for autoregressive generation.
This not only allows us to design an architecture that is more efficient for
one-step generation while fully utilizing the KV cache, but also enables
training the model in a student-forcing manner that proves to be effective in
reducing error accumulation during long video generation. Our experiments
demonstrate that our 8B model achieves real-time, 24fps, streaming video
generation at 736x416 resolution on a single H100, or 1280x720 on 8xH100 up to
a minute long (1440 frames). Visit our research website at
https://seaweed-apt.com/2