One-Forcing: Naar Stabiele Één-Staps Autoregressieve Video Generatie

Samenvatting

Recente ontwikkelingen hebben de real-time interactieve videogeneratie in het autoregressieve regime aanzienlijk verbeterd. Echter, de meeste bestaande methoden voor autoregressieve videogeneratie met weinig stappen, vaak gedestilleerd uit een corresponderende leraar met veel stappen, gebruiken standaard een bemonsteringsconfiguratie met 4 stappen, wat nog steeds aanzienlijke latentie veroorzaakt tijdens implementatie en lijdt aan ernstige kwaliteitsvermindering wanneer het aantal bemonsteringsstappen verder wordt verminderd, met name in de éénstapsinstelling. Consistentiedestillatiemethoden van het trajecttype produceren vaak video's met zwakke dynamiek, terwijl DMD-gebaseerde benaderingen, zoals Self-Forcing, de neiging hebben wazige frames op te leveren. Om deze uitdaging aan te pakken, stellen we One-Forcing voor, een eenvoudige maar effectieve benadering die de DMD-doelfunctie aanvult met een aanvullend GAN-verlies voor hoogwaardige en efficiënte éénstapsvideogeneratie. Experimenten op VBench tonen aan dat One-Forcing een totaalscore van 83,76 behaalt, waarmee het de state-of-the-art prestaties vestigt onder éénstaps causale videogeneratiemethoden en concurrerend blijft met sterke methoden met veel stappen. We tonen verder aan dat éénstaps framegewijze autoregressieve generatie stabiel kan worden bereikt met slechts een derde van de trainingskosten van het chunkgewijze model, een instelling die eerdere methoden niet met succes hebben weten te bereiken.

English

Recent advances have substantially improved real-time interactive video generation in the autoregressive regime. However, most existing few-step autoregressive video generation methods, often distilled from a corresponding many-step teacher, default to a 4-step sampling configuration, which still incurs considerable latency during deployment and suffers from severe quality degradation when the number of sampling steps is further reduced, particularly in the one-step setting. Trajectory-style consistency distillation methods often produce videos with weak dynamics, while DMD-based approaches, such as Self-Forcing, tend to yield blurry frames. To address this challenge, we propose One-Forcing, a simple yet effective approach which augments the DMD objective with an auxiliary GAN loss for high-quality and efficient one-step video generation. Experiments on VBench show that One-Forcing achieves a total score of 83.76, establishing state-of-the-art performance among one-step causal video generation methods and remaining competitive with strong many-step approaches. We further demonstrate that one-step framewise autoregressive generation can be achieved stably with merely one-third of the training cost of the chunkwise model, a setting that prior methods have failed to achieve successfully.