AAD-1: Destilação Adversarial Assimétrica para Geração de Vídeo Autoregressiva em Uma Etapa

Resumo

Apresentamos o AAD-1, uma estrutura de Destilação Adversarial Assimétrica para geração de vídeo autorregressiva de uma etapa, a partir de imagem. Métodos de última geração adotam destilação adversarial, mas sofrem com colapso de movimento e instabilidade de treinamento, resultando em vídeos estáticos. O AAD-1 enfrenta esses desafios por meio de dois projetos-chave na arquitetura e na estratégia de treinamento. Nosso principal insight arquitetônico é quebrar a simetria entre gerador e discriminador. Enquanto o gerador permanece causal para preservar a capacidade de amostragem autorregressiva, o discriminador atende bidirecionalmente a todo o contexto espaçotemporal e produz uma única pontuação holística de realismo para toda a sequência de vídeo. Esse design assimétrico permite que o discriminador detecte eficazmente falhas temporais globais e desvios de longo alcance que causam colapso de movimento na geração autorregressiva. Para estabilizar o treinamento, introduzimos uma estratégia em fases que primeiro usa correspondência de distribuição para inicializar um gerador estável de uma etapa, fornecendo uma fase de aquecimento que aproxima a distribuição do aluno da do professor antes de iniciar a destilação adversarial. Experimentos extensivos no VBench demonstram que o AAD-1 alcança desempenho de última geração na geração de vídeo autorregressiva de uma etapa.

English

We present AAD-1, an Asymmetric Adversarial Distillation framework for One-step autoregressive image-to-video generation. State-of-the-art methods adopt adversarial distillation but suffer from motion collapse and training instability, resulting in static videos. AAD-1 addresses these challenges through two key designs in architecture and training strategy. Our key architectural insight is to break the symmetry between generator and discriminator. While the generator remains causal to preserve autoregressive sampling capability, the discriminator attends bidirectionally over the full spatiotemporal context and produces a single holistic realism score for the entire video sequence. This asymmetric design enables the discriminator to effectively detect global temporal failures and long-range drift that cause motion collapse in autoregressive generation. To stabilize training, we introduce a phased strategy that first uses distribution matching to bootstrap a stable one-step generator, providing a warm-up phase that brings the student distribution closer to the teacher before adversarial distillation begins. Extensive experiments on VBench demonstrate that AAD-1 achieves state-of-the-art performance in one-step autoregressive video generation.