Distillation de flux adversaire on-policy pour la génération de vidéos autorégressive

Résumé

Les générateurs vidéo autorégressifs sont attrayants pour les applications en streaming, à long horizon et interactives, mais il reste difficile de distiller des enseignants puissants de type boîte noire vers des étudiants causaux. L'étudiant doit apprendre sous sa propre distribution de déploiement, tandis que les enseignants pratiques peuvent n'exposer que des vidéos complétées conditionnées par un prompt et peuvent différer en architecture, capacité, conception temporelle et plan d'échantillonnage. Cette interface rend le réglage fin supervisé hors politique, la distillation basée sur les scores inapplicable et l'imitation antagoniste directe trop parcimonieuse pour l'attribution de crédit lors du débruitage. Nous proposons la Distillation par Flux Adversarial (Adversarial Flow Distillation, AFD), un cadre sur politique pour la distillation vidéo hétérogène en boîte noire. L'AFD interroge l'enseignant et déroule l'étudiant actuel sur les mêmes prompts, entraîne un discriminateur de Bradley-Terry apparié par prompt pour estimer l'écart enseignant-étudiant sur échantillons propres, et convertit l'avantage sur politique résultant en mises à jour d'appariement de flux par processus avant sur les états bruités propres à l'étudiant. Ainsi, l'AFD fournit une supervision dense du champ de vélocité sans nécessiter de scores de l'enseignant, de latents, de trajectoires de débruitage, d'alignement d'étapes ni d'apprentissage par renforcement en chaîne inverse. Les expériences sur deux familles d'étudiants AR causaux montrent que l'AFD améliore systématiquement la génération sensible au mouvement et à la physique tout en préservant la qualité vidéo générale, et les ablations valident l'importance de la rétroaction adaptative sur politique et de l'attribution de crédit par processus avant. La méthode ne nécessite que des vidéos propres de l'enseignant et des déroulements de l'étudiant, offrant une voie pratique pour distiller des générateurs vidéo propriétaires ou hétérogènes en étudiants autorégressifs efficaces.

English

Autoregressive video generators are attractive for streaming, long-horizon, and interactive applications, but distilling strong black-box teachers into causal students remains difficult. The student must learn under its own rollout distribution, whereas practical teachers may expose only prompt-conditioned completed videos and may differ in architecture, capacity, temporal design, and sampling schedule. This interface makes supervised fine-tuning off-policy, score-based distillation inapplicable, and direct adversarial imitation too sparse for denoising-time credit assignment. We propose Adversarial Flow Distillation (AFD), an on-policy framework for heterogeneous black-box video distillation. AFD queries the teacher and rolls out the current student on the same prompts, trains a prompt-paired Bradley-Terry discriminator to estimate clean-sample teacher-student discrepancy, and converts the resulting on-policy advantage into forward-process flow-matching updates on the student's own noised states. Thus, AFD provides dense velocity-field supervision while requiring no teacher scores, latents, denoising trajectories, step alignment, or reverse-chain reinforcement learning. Experiments across two causal AR student families show that AFD consistently improves motion- and physics-sensitive generation while preserving general video quality, and ablations validate the importance of adaptive on-policy feedback and forward-process credit assignment. The method requires only clean teacher videos and student rollouts, providing a practical route for distilling proprietary or heterogeneous video generators into efficient autoregressive students.