One-Forcing: к стабильной одношаговой авторегрессионной генерации видео

Аннотация

Недавние достижения позволили существенно улучшить интерактивную генерацию видео в реальном времени в рамках авторегрессионного режима. Однако большинство существующих методов малопаговой авторегрессионной генерации видео, часто дистиллированных из соответствующего многошагового учителя, по умолчанию используют конфигурацию с 4 шагами дискретизации, что по-прежнему приводит к значительной задержке при развертывании и вызывает серьезное ухудшение качества при дальнейшем сокращении числа шагов дискретизации, особенно в однопаговом режиме. Методы согласованной дистилляции на основе траекторий нередко создают видео со слабой динамикой, в то время как подходы на основе DMD, такие как Self-Forcing, склонны давать размытые кадры. Для решения этой проблемы мы предлагаем One-Forcing — простой, но эффективный подход, который дополняет целевую функцию DMD вспомогательной GAN-потерей для высококачественной и эффективной однопаговой генерации видео. Эксперименты на VBench показывают, что One-Forcing достигает общего балла 83.76, устанавливая новый уровень производительности среди однопаговых методов каузальной генерации видео и оставаясь конкурентоспособным по сравнению с сильными многошаговыми подходами. Мы также демонстрируем, что однопаговую покадровую авторегрессионную генерацию можно стабильно реализовать всего за одну треть затрат на обучение поблочной модели — в условиях, которые предыдущие методы не смогли успешно реализовать.

English

Recent advances have substantially improved real-time interactive video generation in the autoregressive regime. However, most existing few-step autoregressive video generation methods, often distilled from a corresponding many-step teacher, default to a 4-step sampling configuration, which still incurs considerable latency during deployment and suffers from severe quality degradation when the number of sampling steps is further reduced, particularly in the one-step setting. Trajectory-style consistency distillation methods often produce videos with weak dynamics, while DMD-based approaches, such as Self-Forcing, tend to yield blurry frames. To address this challenge, we propose One-Forcing, a simple yet effective approach which augments the DMD objective with an auxiliary GAN loss for high-quality and efficient one-step video generation. Experiments on VBench show that One-Forcing achieves a total score of 83.76, establishing state-of-the-art performance among one-step causal video generation methods and remaining competitive with strong many-step approaches. We further demonstrate that one-step framewise autoregressive generation can be achieved stably with merely one-third of the training cost of the chunkwise model, a setting that prior methods have failed to achieve successfully.