Destilación de flujo adversarial on-policy para generación de video autorregresivo

Resumen

Los generadores de video autoregresivos son atractivos para aplicaciones de transmisión en tiempo real, horizontes largos e interacción, pero destilar profesores robustos de caja negra en estudiantes causales sigue siendo difícil. El estudiante debe aprender bajo su propia distribución de despliegue, mientras que los profesores prácticos pueden exponer únicamente videos completos condicionados por instrucciones y pueden diferir en arquitectura, capacidad, diseño temporal y esquema de muestreo. Esta interfaz hace que el ajuste fino supervisado sea fuera de política, la destilación basada en puntuaciones sea inaplicable y la imitación adversarial directa sea demasiado dispersa para la asignación de crédito en el tiempo de eliminación de ruido. Proponemos Destilación de Flujo Adversarial (AFD), un marco en política para la destilación de video de caja negra heterogénea. AFD consulta al profesor y despliega el estudiante actual sobre las mismas instrucciones, entrena un discriminador Bradley-Terry emparejado por instrucciones para estimar la discrepancia profesor-estudiante en muestras limpias, y convierte la ventaja resultante en política en actualizaciones de ajuste de flujo del proceso directo sobre los propios estados con ruido del estudiante. Por lo tanto, AFD proporciona supervisión densa del campo de velocidad sin requerir puntuaciones del profesor, latentes, trayectorias de eliminación de ruido, alineación de pasos ni aprendizaje por refuerzo de cadena inversa. Experimentos en dos familias de estudiantes AR causales muestran que AFD mejora consistentemente la generación sensible al movimiento y a la física, manteniendo la calidad general del video, y las ablaciones validan la importancia de la retroalimentación adaptativa en política y la asignación de crédito del proceso directo. El método solo requiere videos limpios del profesor y despliegues del estudiante, proporcionando una ruta práctica para destilar generadores de video propietarios o heterogéneos en estudiantes autoregresivos eficientes.

English

Autoregressive video generators are attractive for streaming, long-horizon, and interactive applications, but distilling strong black-box teachers into causal students remains difficult. The student must learn under its own rollout distribution, whereas practical teachers may expose only prompt-conditioned completed videos and may differ in architecture, capacity, temporal design, and sampling schedule. This interface makes supervised fine-tuning off-policy, score-based distillation inapplicable, and direct adversarial imitation too sparse for denoising-time credit assignment. We propose Adversarial Flow Distillation (AFD), an on-policy framework for heterogeneous black-box video distillation. AFD queries the teacher and rolls out the current student on the same prompts, trains a prompt-paired Bradley-Terry discriminator to estimate clean-sample teacher-student discrepancy, and converts the resulting on-policy advantage into forward-process flow-matching updates on the student's own noised states. Thus, AFD provides dense velocity-field supervision while requiring no teacher scores, latents, denoising trajectories, step alignment, or reverse-chain reinforcement learning. Experiments across two causal AR student families show that AFD consistently improves motion- and physics-sensitive generation while preserving general video quality, and ablations validate the importance of adaptive on-policy feedback and forward-process credit assignment. The method requires only clean teacher videos and student rollouts, providing a practical route for distilling proprietary or heterogeneous video generators into efficient autoregressive students.