OmniForcing : Libérer la génération audio-visuelle conjointe en temps réel

Résumé

Les modèles de diffusion audio-visuelle conjoints récents atteignent une qualité de génération remarquable, mais souffrent d'une latence élevée due à leurs dépendances attentionnelles bidirectionnelles, entravant les applications en temps réel. Nous proposons OmniForcing, le premier cadre permettant de distiller un modèle de diffusion bidirectionnel à double flux hors ligne en un générateur autorégressif streaming de haute fidélité. Cependant, l'application naïve de la distillation causale à de telles architectures à double flux déclenche une instabilité sévère lors de l'entraînement, en raison de l'asymétrie temporelle extrême entre les modalités et de la parcimonie de tokens qui en résulte. Nous abordons l'écart de densité informationnelle inhérent en introduisant un Alignement Bloc-Causal Asymétrique avec un Préfixe Global à troncature zéro qui empêche la dérive de synchronisation multimodale. L'explosion du gradient causée par la parcimonie extrême des tokens audio durant le décalage causal est en outre résolue via un mécanisme de Token Puits Audio équipé d'une contrainte RoPE Identité. Enfin, un paradigme de Distillation par Auto-Forçage Conjoint permet au modèle de s'auto-corriger dynamiquement des erreurs multimodales cumulatives dues au biais d'exposition lors des longues séquences générées. Doté d'un schéma d'inférence à cache KV glissant indépendant des modalités, OmniForcing réalise une génération streaming de pointe à sim25 FPS sur un seul GPU, tout en maintenant une synchronisation multimodale et une qualité visuelle équivalentes à celles de l'enseignant bidirectionnel.Page du projet : https://omniforcing.com{https://omniforcing.com}

English

Recent joint audio-visual diffusion models achieve remarkable generation quality but suffer from high latency due to their bidirectional attention dependencies, hindering real-time applications. We propose OmniForcing, the first framework to distill an offline, dual-stream bidirectional diffusion model into a high-fidelity streaming autoregressive generator. However, naively applying causal distillation to such dual-stream architectures triggers severe training instability, due to the extreme temporal asymmetry between modalities and the resulting token sparsity. We address the inherent information density gap by introducing an Asymmetric Block-Causal Alignment with a zero-truncation Global Prefix that prevents multi-modal synchronization drift. The gradient explosion caused by extreme audio token sparsity during the causal shift is further resolved through an Audio Sink Token mechanism equipped with an Identity RoPE constraint. Finally, a Joint Self-Forcing Distillation paradigm enables the model to dynamically self-correct cumulative cross-modal errors from exposure bias during long rollouts. Empowered by a modality-independent rolling KV-cache inference scheme, OmniForcing achieves state-of-the-art streaming generation at sim25 FPS on a single GPU, maintaining multi-modal synchronization and visual quality on par with the bidirectional teacher.Project Page: https://omniforcing.com{https://omniforcing.com}

OmniForcing : Libérer la génération audio-visuelle conjointe en temps réel

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Résumé

Support