ChatPaper.aiChatPaper

OmniForcing: Liberando a Geração Conjunta de Áudio e Vídeo em Tempo Real

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

March 12, 2026
Autores: Yaofeng Su, Yuming Li, Zeyue Xue, Jie Huang, Siming Fu, Haoran Li, Ying Li, Zezhong Qian, Haoyang Huang, Nan Duan
cs.AI

Resumo

Os recentes modelos de difusão áudio-visual conjunta alcançam uma qualidade de geração notável, mas sofrem com alta latência devido às suas dependências de atenção bidirecionais, dificultando aplicações em tempo real. Propomos o OmniForcing, o primeiro framework para destilar um modelo de difusão bidirecional de fluxo duplo offline em um gerador autoregressivo de streaming de alta fidelidade. No entanto, a aplicação ingênua de destilação causal a tais arquiteturas de fluxo duplo desencadeia severa instabilidade de treinamento, devido à extrema assimetria temporal entre modalidades e à resultante esparsidade de tokens. Resolvemos a inerente diferença de densidade de informação introduzindo um Alinhamento Causal Assimétrico em Blocos com um Prefixo Global de truncamento zero que previne o desvio de sincronização multimodal. A explosão de gradiente causada pela extrema esparsidade de tokens de áudio durante a transição causal é adicionalmente resolvida através de um mecanismo de Token de Sumidouro de Áudio equipado com uma restrição Identity RoPE. Finalmente, um paradigma de Destilação Conjunta de Autoforçamento permite que o modelo corrija dinamicamente erros cumulativos cross-modais do viés de exposição durante rollouts longos. Capacitado por um esquema de inferência independente de modalidade com cache KV rolante, o OmniForcing alcança geração de streaming state-of-the-art a ∼25 FPS em uma única GPU, mantendo sincronização multimodal e qualidade visual equivalentes ao professor bidirecional. Página do Projeto: https://omniforcing.com{https://omniforcing.com}
English
Recent joint audio-visual diffusion models achieve remarkable generation quality but suffer from high latency due to their bidirectional attention dependencies, hindering real-time applications. We propose OmniForcing, the first framework to distill an offline, dual-stream bidirectional diffusion model into a high-fidelity streaming autoregressive generator. However, naively applying causal distillation to such dual-stream architectures triggers severe training instability, due to the extreme temporal asymmetry between modalities and the resulting token sparsity. We address the inherent information density gap by introducing an Asymmetric Block-Causal Alignment with a zero-truncation Global Prefix that prevents multi-modal synchronization drift. The gradient explosion caused by extreme audio token sparsity during the causal shift is further resolved through an Audio Sink Token mechanism equipped with an Identity RoPE constraint. Finally, a Joint Self-Forcing Distillation paradigm enables the model to dynamically self-correct cumulative cross-modal errors from exposure bias during long rollouts. Empowered by a modality-independent rolling KV-cache inference scheme, OmniForcing achieves state-of-the-art streaming generation at sim25 FPS on a single GPU, maintaining multi-modal synchronization and visual quality on par with the bidirectional teacher.Project Page: https://omniforcing.com{https://omniforcing.com}
PDF314March 30, 2026