One-Forcing: Auf dem Weg zu stabiler einstufiger autoregressiver Videogenerierung

Zusammenfassung

Jüngste Fortschritte haben die reaktive Echtzeit-Videogenerierung im autoregressiven Bereich erheblich verbessert. Allerdings verwenden die meisten bestehenden Methoden zur wenige-Schritte autoregressiven Videogenerierung, die oft aus einem entsprechenden Lehrer mit vielen Schritten destilliert werden, standardmäßig eine 4-Schritte-Abtastkonfiguration, was beim Einsatz immer noch erhebliche Latenzzeiten verursacht und bei weiterer Reduzierung der Abtastschritte, insbesondere im ein-Schritt-Setting, zu schwerwiegenden Qualitätseinbußen führt. Trajektorienbasierte Konsistenzdestillationsmethoden erzeugen oft Videos mit schwacher Dynamik, während DMD-basierte Ansätze wie Self-Forcing zu unscharfen Einzelbildern neigen. Um diese Herausforderung zu bewältigen, schlagen wir One-Forcing vor, einen einfachen, aber effektiven Ansatz, der das DMD-Ziel mit einem ergänzenden GAN-Verlust für qualitativ hochwertige und effiziente ein-Schritt-Videogenerierung erweitert. Experimente auf VBench zeigen, dass One-Forcing einen Gesamtwert von 83,76 erreicht und damit den Stand der Technik unter den ein-Schritt-kausalen Videogenerierungsmethoden setzt und mit leistungsstarken Mehr-Schritt-Ansätzen konkurrenzfähig bleibt. Wir zeigen ferner, dass die ein-Schritt-bildweise autoregressive Generierung stabil mit lediglich einem Drittel der Trainingskosten des Chunk-Modells erreicht werden kann, eine Einstellung, die frühere Methoden nicht erfolgreich umsetzen konnten.

English

Recent advances have substantially improved real-time interactive video generation in the autoregressive regime. However, most existing few-step autoregressive video generation methods, often distilled from a corresponding many-step teacher, default to a 4-step sampling configuration, which still incurs considerable latency during deployment and suffers from severe quality degradation when the number of sampling steps is further reduced, particularly in the one-step setting. Trajectory-style consistency distillation methods often produce videos with weak dynamics, while DMD-based approaches, such as Self-Forcing, tend to yield blurry frames. To address this challenge, we propose One-Forcing, a simple yet effective approach which augments the DMD objective with an auxiliary GAN loss for high-quality and efficient one-step video generation. Experiments on VBench show that One-Forcing achieves a total score of 83.76, establishing state-of-the-art performance among one-step causal video generation methods and remaining competitive with strong many-step approaches. We further demonstrate that one-step framewise autoregressive generation can be achieved stably with merely one-third of the training cost of the chunkwise model, a setting that prior methods have failed to achieve successfully.