OmniForcing: Liberando a Geração Conjunta de Áudio e Vídeo em Tempo Real

Resumo

Os recentes modelos de difusão áudio-visual conjunta alcançam uma qualidade de geração notável, mas sofrem com alta latência devido às suas dependências de atenção bidirecionais, dificultando aplicações em tempo real. Propomos o OmniForcing, o primeiro framework para destilar um modelo de difusão bidirecional de fluxo duplo offline em um gerador autoregressivo de streaming de alta fidelidade. No entanto, a aplicação ingênua de destilação causal a tais arquiteturas de fluxo duplo desencadeia severa instabilidade de treinamento, devido à extrema assimetria temporal entre modalidades e à resultante esparsidade de tokens. Resolvemos a inerente diferença de densidade de informação introduzindo um Alinhamento Causal Assimétrico em Blocos com um Prefixo Global de truncamento zero que previne o desvio de sincronização multimodal. A explosão de gradiente causada pela extrema esparsidade de tokens de áudio durante a transição causal é adicionalmente resolvida através de um mecanismo de Token de Sumidouro de Áudio equipado com uma restrição Identity RoPE. Finalmente, um paradigma de Destilação Conjunta de Autoforçamento permite que o modelo corrija dinamicamente erros cumulativos cross-modais do viés de exposição durante rollouts longos. Capacitado por um esquema de inferência independente de modalidade com cache KV rolante, o OmniForcing alcança geração de streaming state-of-the-art a ∼25 FPS em uma única GPU, mantendo sincronização multimodal e qualidade visual equivalentes ao professor bidirecional. Página do Projeto: https://omniforcing.com{https://omniforcing.com}

English

Recent joint audio-visual diffusion models achieve remarkable generation quality but suffer from high latency due to their bidirectional attention dependencies, hindering real-time applications. We propose OmniForcing, the first framework to distill an offline, dual-stream bidirectional diffusion model into a high-fidelity streaming autoregressive generator. However, naively applying causal distillation to such dual-stream architectures triggers severe training instability, due to the extreme temporal asymmetry between modalities and the resulting token sparsity. We address the inherent information density gap by introducing an Asymmetric Block-Causal Alignment with a zero-truncation Global Prefix that prevents multi-modal synchronization drift. The gradient explosion caused by extreme audio token sparsity during the causal shift is further resolved through an Audio Sink Token mechanism equipped with an Identity RoPE constraint. Finally, a Joint Self-Forcing Distillation paradigm enables the model to dynamically self-correct cumulative cross-modal errors from exposure bias during long rollouts. Empowered by a modality-independent rolling KV-cache inference scheme, OmniForcing achieves state-of-the-art streaming generation at sim25 FPS on a single GPU, maintaining multi-modal synchronization and visual quality on par with the bidirectional teacher.Project Page: https://omniforcing.com{https://omniforcing.com}

OmniForcing: Liberando a Geração Conjunta de Áudio e Vídeo em Tempo Real

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Resumo

Support