Destilação de Fluxo Adversarial On-Policy para Geração Autoregressiva de Vídeo

Resumo

Geradores de vídeo autorregressivos são atrativos para aplicações de streaming, de longo horizonte e interativas, mas destilar professores black-box fortes em alunos causais continua sendo difícil. O aluno deve aprender sob sua própria distribuição de rollout, enquanto professores práticos podem expor apenas vídeos completos condicionados a prompts e podem diferir em arquitetura, capacidade, design temporal e cronograma de amostragem. Essa interface torna o ajuste fino supervisionado fora da política, a destilação baseada em scores inaplicável e a imitação adversarial direta muito esparsa para atribuição de crédito no tempo de denoising. Propomos a Destilação de Fluxo Adversarial (AFD), uma estrutura on-policy para destilação de vídeo black-box heterogênea. A AFD consulta o professor e executa o rollout do aluno atual nos mesmos prompts, treina um discriminador Bradley-Terry pareado com prompts para estimar a discrepância professor-aluno em amostras limpas e converte a vantagem on-policy resultante em atualizações de flow-matching no processo forward nos estados ruidosos do próprio aluno. Assim, a AFD fornece supervisão densa do campo de velocidade sem exigir scores, latentes, trajetórias de denoising, alinhamento de etapas ou aprendizado por reforço em cadeia reversa do professor. Experimentos em duas famílias de alunos AR causais mostram que a AFD melhora consistentemente a geração sensível a movimento e física, preservando a qualidade geral do vídeo, e ablações validam a importância do feedback adaptativo on-policy e da atribuição de crédito no processo forward. O método requer apenas vídeos limpos do professor e rollouts do aluno, fornecendo uma rota prática para destilar geradores de vídeo proprietários ou heterogêneos em alunos autorregressivos eficientes.

English

Autoregressive video generators are attractive for streaming, long-horizon, and interactive applications, but distilling strong black-box teachers into causal students remains difficult. The student must learn under its own rollout distribution, whereas practical teachers may expose only prompt-conditioned completed videos and may differ in architecture, capacity, temporal design, and sampling schedule. This interface makes supervised fine-tuning off-policy, score-based distillation inapplicable, and direct adversarial imitation too sparse for denoising-time credit assignment. We propose Adversarial Flow Distillation (AFD), an on-policy framework for heterogeneous black-box video distillation. AFD queries the teacher and rolls out the current student on the same prompts, trains a prompt-paired Bradley-Terry discriminator to estimate clean-sample teacher-student discrepancy, and converts the resulting on-policy advantage into forward-process flow-matching updates on the student's own noised states. Thus, AFD provides dense velocity-field supervision while requiring no teacher scores, latents, denoising trajectories, step alignment, or reverse-chain reinforcement learning. Experiments across two causal AR student families show that AFD consistently improves motion- and physics-sensitive generation while preserving general video quality, and ablations validate the importance of adaptive on-policy feedback and forward-process credit assignment. The method requires only clean teacher videos and student rollouts, providing a practical route for distilling proprietary or heterogeneous video generators into efficient autoregressive students.