AAD-1: Asymmetrische Adversariële Destillatie voor Eénstaps Autoregressieve Videogeneratie

Samenvatting

Wij presenteren AAD-1, een Asymmetrisch Adversariaal Destillatieraamwerk voor eenstaps autoregressieve beeld-naar-video-generatie. State-of-the-art methoden maken gebruik van adversariële destillatie, maar kampen met bewegingsinstorting en trainingsinstabiliteit, wat resulteert in statische video's. AAD-1 pakt deze uitdagingen aan via twee sleutelontwerpen in architectuur en trainingsstrategie. Ons belangrijkste architecturale inzicht is het doorbreken van de symmetrie tussen generator en discriminator. Terwijl de generator causaal blijft om autoregressieve samplingmogelijkheden te behouden, richt de discriminator zich bidirectioneel op de volledige spatiotemporele context en produceert een enkele holistische realisme-score voor de gehele videosequentie. Dit asymmetrische ontwerp stelt de discriminator in staat om effectief globale temporele fouten en langdurige drift te detecteren die bewegingsinstorting in autoregressieve generatie veroorzaken. Om de training te stabiliseren, introduceren we een gefaseerde strategie die eerst distributiematching gebruikt om een stabiele eenstapsgenerator op te starten, wat een opwarmfase biedt die de studentdistributie dichter bij de leraar brengt voordat de adversariële destillatie begint. Uitgebreide experimenten op VBench tonen aan dat AAD-1 state-of-the-art prestaties levert in eenstaps autoregressieve videogeneratie.

English

We present AAD-1, an Asymmetric Adversarial Distillation framework for One-step autoregressive image-to-video generation. State-of-the-art methods adopt adversarial distillation but suffer from motion collapse and training instability, resulting in static videos. AAD-1 addresses these challenges through two key designs in architecture and training strategy. Our key architectural insight is to break the symmetry between generator and discriminator. While the generator remains causal to preserve autoregressive sampling capability, the discriminator attends bidirectionally over the full spatiotemporal context and produces a single holistic realism score for the entire video sequence. This asymmetric design enables the discriminator to effectively detect global temporal failures and long-range drift that cause motion collapse in autoregressive generation. To stabilize training, we introduce a phased strategy that first uses distribution matching to bootstrap a stable one-step generator, providing a warm-up phase that brings the student distribution closer to the teacher before adversarial distillation begins. Extensive experiments on VBench demonstrate that AAD-1 achieves state-of-the-art performance in one-step autoregressive video generation.