OmniForcing: Sbloccare la Generazione Audio-Visiva Congiunta in Tempo Reale

Abstract

I recenti modelli di diffusione audiovisiva congiunta raggiungono una qualità di generazione notevole, ma soffrono di un'elevata latenza a causa delle loro dipendenze attentive bidirezionali, ostacolando le applicazioni in tempo reale. Proponiamo OmniForcing, il primo framework per distillare un modello di diffusione bidirezionale dual-stream offline in un generatore autoregressivo streaming ad alta fedeltà. Tuttavia, l'applicazione ingenua della distillazione causale a tali architetture dual-stream innesca una grave instabilità dell'addestramento, a causa dell'estrema asimmetria temporale tra le modalità e della conseguente sparsità dei token. Affrontiamo il divario intrinseco nella densità informativa introducendo un Allineamento Blocco-Causale Asimmetrico con un Prefisso Globale a troncamento zero che previene la deriva della sincronizzazione multimodale. L'esplosione del gradiente causata dall'estrema sparsità dei token audio durante lo shift causale è ulteriormente risolta attraverso un meccanismo di Audio Sink Token equipaggiato con un vincolo Identity RoPE. Infine, un paradigma di Distillazione Congiunta Self-Forcing consente al modello di autocorreggere dinamicamente gli errori cumulativi cross-modali dovuti al bias di esposizione durante i rollout lunghi. Potenziato da uno schema di inferenza rolling KV-cache indipendente dalla modalità, OmniForcing raggiunge una generazione streaming allo stato dell'arte a circa 25 FPS su una singola GPU, mantenendo la sincronizzazione multimodale e la qualità visiva pari al teacher bidirezionale. Pagina del Progetto: https://omniforcing.com{https://omniforcing.com}

English

Recent joint audio-visual diffusion models achieve remarkable generation quality but suffer from high latency due to their bidirectional attention dependencies, hindering real-time applications. We propose OmniForcing, the first framework to distill an offline, dual-stream bidirectional diffusion model into a high-fidelity streaming autoregressive generator. However, naively applying causal distillation to such dual-stream architectures triggers severe training instability, due to the extreme temporal asymmetry between modalities and the resulting token sparsity. We address the inherent information density gap by introducing an Asymmetric Block-Causal Alignment with a zero-truncation Global Prefix that prevents multi-modal synchronization drift. The gradient explosion caused by extreme audio token sparsity during the causal shift is further resolved through an Audio Sink Token mechanism equipped with an Identity RoPE constraint. Finally, a Joint Self-Forcing Distillation paradigm enables the model to dynamically self-correct cumulative cross-modal errors from exposure bias during long rollouts. Empowered by a modality-independent rolling KV-cache inference scheme, OmniForcing achieves state-of-the-art streaming generation at sim25 FPS on a single GPU, maintaining multi-modal synchronization and visual quality on par with the bidirectional teacher.Project Page: https://omniforcing.com{https://omniforcing.com}

OmniForcing: Sbloccare la Generazione Audio-Visiva Congiunta in Tempo Reale

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Abstract

Support