Состязательная дистилляция потоков на основе политики для авторегрессионной генерации видео

Аннотация

Авторегрессионные генераторы видео привлекательны для потоковых, долгосрочных и интерактивных приложений, однако дистилляция сильных учителей «чёрного ящика» в каузальных учеников остаётся сложной задачей. Ученик должен обучаться в условиях собственного распределения развёртывания, тогда как практические учителя могут предоставлять только завершённые видео, обусловленные промптом, и могут отличаться по архитектуре, ёмкости, временной организации и расписанию семплирования. Такой интерфейс делает контролируемую донастройку вне политики, дистилляцию на основе скора и прямую состязательную имитацию неприменимыми — последняя слишком разрежена для присвоения кредита на этапе шумоподавления. Мы предлагаем состязательную дистилляцию потоков (Adversarial Flow Distillation, AFD) — методологию «в политике» для гетерогенной дистилляции видео из чёрного ящика. AFD запрашивает учителя и развёртывает текущего ученика на тех же промптах, обучает дискриминатор Брэдли-Терри на парах промптов для оценки расхождения между учителем и учеником на чистых сэмплах и преобразует полученное преимущество «в политике» в обновления согласования потоков прямого процесса для зашумлённых состояний ученика. Таким образом, AFD обеспечивает плотное управление полем скорости, не требуя скоров учителя, латентных представлений, траекторий шумоподавления, выравнивания шагов или обучения с подкреплением на обратной цепи. Эксперименты на двух семействах каузальных AR-учеников показывают, что AFD последовательно улучшает генерацию, чувствительную к движению и физике, сохраняя общее качество видео, а абляционные исследования подтверждают важность адаптивной обратной связи «в политике» и присвоения кредита в прямом процессе. Метод требует только чистых видео учителя и развёртываний ученика, предоставляя практический путь для дистилляции проприетарных или гетерогенных генераторов видео в эффективные авторегрессионные ученики.

English

Autoregressive video generators are attractive for streaming, long-horizon, and interactive applications, but distilling strong black-box teachers into causal students remains difficult. The student must learn under its own rollout distribution, whereas practical teachers may expose only prompt-conditioned completed videos and may differ in architecture, capacity, temporal design, and sampling schedule. This interface makes supervised fine-tuning off-policy, score-based distillation inapplicable, and direct adversarial imitation too sparse for denoising-time credit assignment. We propose Adversarial Flow Distillation (AFD), an on-policy framework for heterogeneous black-box video distillation. AFD queries the teacher and rolls out the current student on the same prompts, trains a prompt-paired Bradley-Terry discriminator to estimate clean-sample teacher-student discrepancy, and converts the resulting on-policy advantage into forward-process flow-matching updates on the student's own noised states. Thus, AFD provides dense velocity-field supervision while requiring no teacher scores, latents, denoising trajectories, step alignment, or reverse-chain reinforcement learning. Experiments across two causal AR student families show that AFD consistently improves motion- and physics-sensitive generation while preserving general video quality, and ablations validate the importance of adaptive on-policy feedback and forward-process credit assignment. The method requires only clean teacher videos and student rollouts, providing a practical route for distilling proprietary or heterogeneous video generators into efficient autoregressive students.