On-Policy Adversarial Flow Distillation für Autoregressive Videogenerierung

Zusammenfassung

Autoregressive Videogeneratoren sind attraktiv für Streaming-, Langzeithorizont- und interaktive Anwendungen, doch die Destillation starker Black-Box-Lehrer in kausale Studenten bleibt schwierig. Der Student muss unter seiner eigenen Rollout-Verteilung lernen, während praktische Lehrer möglicherweise nur prompt-bedingte fertige Videos bereitstellen und sich in Architektur, Kapazität, zeitlichem Design und Abtastplan unterscheiden können. Diese Schnittstelle macht überwachtes Feintuning off-policy, score-basierte Destillation unanwendbar und direkte adversarialische Nachahmung zu spärlich für die Kreditzuweisung zur Entrauschungszeit. Wir schlagen Adversarial Flow Distillation (AFD) vor, ein On-Policy-Framework für heterogene Black-Box-Videodestillation. AFD fragt den Lehrer ab und rollt den aktuellen Studenten auf denselben Prompts aus, trainiert einen prompt-gepaarten Bradley-Terry-Diskriminator zur Schätzung der Abweichung zwischen sauberen Stichproben von Lehrer und Student und wandelt den resultierenden On-Policy-Vorteil in Vorwärtsprozess-Flow-Matching-Updates auf den eigenen verrauschten Zuständen des Studenten um. Somit bietet AFD eine dichte Geschwindigkeitsfeld-Überwachung, ohne dass Lehrer-Scores, Latents, Entrauschungstrajektorien, Schrittabstimmung oder Reverse-Chain-Reinforcement-Learning erforderlich sind. Experimente mit zwei kausalen AR-Studentenfamilien zeigen, dass AFD die bewegungs- und physiksensitive Generierung konsistent verbessert und dabei die allgemeine Videoqualität erhält; Ablationen bestätigen die Bedeutung von adaptivem On-Policy-Feedback und Vorwärtsprozess-Kreditzuweisung. Die Methode erfordert lediglich saubere Lehrer-Videos und Studenten-Rollouts und bietet einen praktischen Weg, proprietäre oder heterogene Videogeneratoren in effiziente autoregressive Studenten zu destillieren.

English

Autoregressive video generators are attractive for streaming, long-horizon, and interactive applications, but distilling strong black-box teachers into causal students remains difficult. The student must learn under its own rollout distribution, whereas practical teachers may expose only prompt-conditioned completed videos and may differ in architecture, capacity, temporal design, and sampling schedule. This interface makes supervised fine-tuning off-policy, score-based distillation inapplicable, and direct adversarial imitation too sparse for denoising-time credit assignment. We propose Adversarial Flow Distillation (AFD), an on-policy framework for heterogeneous black-box video distillation. AFD queries the teacher and rolls out the current student on the same prompts, trains a prompt-paired Bradley-Terry discriminator to estimate clean-sample teacher-student discrepancy, and converts the resulting on-policy advantage into forward-process flow-matching updates on the student's own noised states. Thus, AFD provides dense velocity-field supervision while requiring no teacher scores, latents, denoising trajectories, step alignment, or reverse-chain reinforcement learning. Experiments across two causal AR student families show that AFD consistently improves motion- and physics-sensitive generation while preserving general video quality, and ablations validate the importance of adaptive on-policy feedback and forward-process credit assignment. The method requires only clean teacher videos and student rollouts, providing a practical route for distilling proprietary or heterogeneous video generators into efficient autoregressive students.