Pós-treinamento Autoregressivo Adversarial para Geração de Vídeo Interativo em Tempo Real
Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation
June 11, 2025
Autores: Shanchuan Lin, Ceyuan Yang, Hao He, Jianwen Jiang, Yuxi Ren, Xin Xia, Yang Zhao, Xuefeng Xiao, Lu Jiang
cs.AI
Resumo
Os modelos existentes de geração de vídeo em grande escala são computacionalmente intensivos, o que impede sua adoção em aplicações em tempo real e interativas. Neste trabalho, propomos o pós-treinamento adversarial autoregressivo (AAPT) para transformar um modelo de difusão de vídeo latente pré-treinado em um gerador de vídeo em tempo real e interativo. Nosso modelo gera autoregressivamente um quadro latente por vez usando uma única avaliação de função neural (1NFE). O modelo pode transmitir o resultado ao usuário em tempo real e receber respostas interativas como controles para gerar o próximo quadro latente. Diferente das abordagens existentes, nosso método explora o treinamento adversarial como um paradigma eficaz para geração autoregressiva. Isso não apenas nos permite projetar uma arquitetura mais eficiente para geração em uma etapa, aproveitando totalmente o cache KV, mas também possibilita treinar o modelo de maneira "student-forcing", que se mostra eficaz na redução do acúmulo de erros durante a geração de vídeos longos. Nossos experimentos demonstram que nosso modelo de 8B alcança geração de vídeo em tempo real, a 24fps, com resolução de 736x416 em um único H100, ou 1280x720 em 8xH100, com duração de até um minuto (1440 quadros). Visite nosso site de pesquisa em https://seaweed-apt.com/2.
English
Existing large-scale video generation models are computationally intensive,
preventing adoption in real-time and interactive applications. In this work, we
propose autoregressive adversarial post-training (AAPT) to transform a
pre-trained latent video diffusion model into a real-time, interactive video
generator. Our model autoregressively generates a latent frame at a time using
a single neural function evaluation (1NFE). The model can stream the result to
the user in real time and receive interactive responses as controls to generate
the next latent frame. Unlike existing approaches, our method explores
adversarial training as an effective paradigm for autoregressive generation.
This not only allows us to design an architecture that is more efficient for
one-step generation while fully utilizing the KV cache, but also enables
training the model in a student-forcing manner that proves to be effective in
reducing error accumulation during long video generation. Our experiments
demonstrate that our 8B model achieves real-time, 24fps, streaming video
generation at 736x416 resolution on a single H100, or 1280x720 on 8xH100 up to
a minute long (1440 frames). Visit our research website at
https://seaweed-apt.com/2