One-Forcing: Rumo à Geração Estável de Vídeo Autoregressiva em Uma Etapa

Resumo

Avanços recentes melhoraram substancialmente a geração de vídeo interativa em tempo real no regime autorregressivo. No entanto, a maioria dos métodos existentes de geração de vídeo autorregressiva de poucas etapas, frequentemente destilados a partir de um professor correspondente de muitas etapas, adota por padrão uma configuração de amostragem de 4 etapas, o que ainda incorre em latência considerável durante a implantação e sofre de grave degradação de qualidade quando o número de etapas de amostragem é ainda mais reduzido, particularmente na configuração de etapa única. Métodos de destilação de consistência baseados em trajetórias frequentemente produzem vídeos com dinâmicas fracas, enquanto abordagens baseadas em DMD, como o Self-Forcing, tendem a gerar quadros borrados. Para enfrentar esse desafio, propomos o One-Forcing, uma abordagem simples, porém eficaz, que aumenta o objetivo do DMD com uma perda GAN auxiliar para geração de vídeo de etapa única de alta qualidade e eficiente. Experimentos no VBench mostram que o One-Forcing atinge uma pontuação total de 83,76, estabelecendo um desempenho de estado da arte entre métodos de geração de vídeo causal de etapa única e mantendo-se competitivo com abordagens robustas de múltiplas etapas. Demonstramos ainda que a geração autorregressiva quadro a quadro de etapa única pode ser alcançada de forma estável com apenas um terço do custo de treinamento do modelo chunkwise, uma configuração que métodos anteriores não conseguiram obter com sucesso.

English

Recent advances have substantially improved real-time interactive video generation in the autoregressive regime. However, most existing few-step autoregressive video generation methods, often distilled from a corresponding many-step teacher, default to a 4-step sampling configuration, which still incurs considerable latency during deployment and suffers from severe quality degradation when the number of sampling steps is further reduced, particularly in the one-step setting. Trajectory-style consistency distillation methods often produce videos with weak dynamics, while DMD-based approaches, such as Self-Forcing, tend to yield blurry frames. To address this challenge, we propose One-Forcing, a simple yet effective approach which augments the DMD objective with an auxiliary GAN loss for high-quality and efficient one-step video generation. Experiments on VBench show that One-Forcing achieves a total score of 83.76, establishing state-of-the-art performance among one-step causal video generation methods and remaining competitive with strong many-step approaches. We further demonstrate that one-step framewise autoregressive generation can be achieved stably with merely one-third of the training cost of the chunkwise model, a setting that prior methods have failed to achieve successfully.