AAD-1: 단일 단계 자기회귀 비디오 생성을 위한 비대칭 적대적 증류
AAD-1: Asymmetric Adversarial Distillation for One-Step Autoregressive Video Generation
June 2, 2026
저자: Haobo Li, Yanhong Zeng, Yunhong Lu, Jiapeng Zhu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Yujun Shen, Zhipeng Zhang
cs.AI
초록
본 논문에서는 단일 단계 자기회귀 이미지-비디오 생성을 위한 비대칭 적대적 증류 프레임워크인 AAD-1을 제시한다. 최신 방법들은 적대적 증류를 채택하지만, 움직임 붕괴와 훈련 불안정성으로 인해 정적인 비디오가 생성되는 문제를 겪는다. AAD-1은 아키텍처와 훈련 전략에서의 두 가지 핵심 설계를 통해 이러한 문제를 해결한다. 아키텍처 측면의 주요 통찰은 생성자와 판별자 간의 대칭성을 깨는 것이다. 생성자는 자기회귀 샘플링 능력을 유지하기 위해 인과적 구조를 유지하는 반면, 판별자는 전체 시공간적 맥락에 걸쳐 양방향으로 주목하며 비디오 시퀀스 전체에 대해 단일한 전체적 사실성 점수를 산출한다. 이러한 비대칭적 설계는 판별자가 자기회귀 생성에서 움직임 붕괴를 유발하는 전역적 시간적 실패와 장거리 드리프트를 효과적으로 탐지할 수 있게 한다. 훈련을 안정화하기 위해, 먼저 분포 매칭을 사용하여 안정적인 단일 단계 생성자를 부트스트래핑하는 단계적 전략을 도입한다. 이는 적대적 증류가 시작되기 전에 학생 분포를 교사 분포에 더 가깝게 만드는 워밍업 단계를 제공한다. VBench에 대한 광범위한 실험을 통해 AAD-1이 단일 단계 자기회귀 비디오 생성에서 최첨단 성능을 달성함을 입증한다.
English
We present AAD-1, an Asymmetric Adversarial Distillation framework for One-step autoregressive image-to-video generation. State-of-the-art methods adopt adversarial distillation but suffer from motion collapse and training instability, resulting in static videos. AAD-1 addresses these challenges through two key designs in architecture and training strategy. Our key architectural insight is to break the symmetry between generator and discriminator. While the generator remains causal to preserve autoregressive sampling capability, the discriminator attends bidirectionally over the full spatiotemporal context and produces a single holistic realism score for the entire video sequence. This asymmetric design enables the discriminator to effectively detect global temporal failures and long-range drift that cause motion collapse in autoregressive generation. To stabilize training, we introduce a phased strategy that first uses distribution matching to bootstrap a stable one-step generator, providing a warm-up phase that brings the student distribution closer to the teacher before adversarial distillation begins. Extensive experiments on VBench demonstrate that AAD-1 achieves state-of-the-art performance in one-step autoregressive video generation.