OmniForcing: Entfesseln von Echtzeit-Joint-Audio-Visueller-Erzeugung

Zusammenfassung

Aktuelle gemeinsame audiovisuelle Diffusionsmodelle erreichen eine bemerkenswerte Generierungsqualität, leiden jedoch unter hoher Latenz aufgrund ihrer bidirektionalen Aufmerksamkeitsabhängigkeiten, was Echtzeitanwendungen behindert. Wir stellen OmniForcing vor, den ersten Rahmen, um ein offline, dualstrom-basiertes bidirektionales Diffusionsmodell in einen autoregressiven Streaming-Generator mit hoher Wiedergabetreue zu destillieren. Eine naive Anwendung der kausalen Destillation auf solche dualstrom-basierten Architekturen führt jedoch zu schwerer Trainingsinstabilität, verursacht durch die extreme zeitliche Asymmetrie zwischen den Modalitäten und die daraus resultierende Token-Sparsamkeit. Wir adressieren die inherente Informationsdichtelücke durch die Einführung einer asymmetrischen block-kausalen Ausrichtung mit einem globalen Präfix und Null-Abschneidung, die eine multimodale Synchronisationsdrift verhindert. Der durch extreme Audio-Token-Sparsamkeit während der kausalen Verschiebung verursachte Gradientenexplosion wird weiterhin durch einen Audio-Sink-Token-Mechanismus mit einer Identity-RoPE-Beschränkung gelöst. Schließlich ermöglicht ein Paradigma der gemeinsamen Selbst-Forcing-Destillation dem Modell, kumulative cross-modale Fehler aus Exposure Bias während langer Rollouts dynamisch selbst zu korrigieren. Gestärkt durch ein modalitätsunabhängiges Rolling-KV-Cache-Inferenzschema erreicht OmniForcing state-of-the-art Streaming-Generierung bei sim25 FPS auf einer einzelnen GPU und erhält dabei die multimodale Synchronisation und visuelle Qualität auf Augenhöhe mit dem bidirektionalen Lehrer. Projektseite: https://omniforcing.com{https://omniforcing.com}

English

Recent joint audio-visual diffusion models achieve remarkable generation quality but suffer from high latency due to their bidirectional attention dependencies, hindering real-time applications. We propose OmniForcing, the first framework to distill an offline, dual-stream bidirectional diffusion model into a high-fidelity streaming autoregressive generator. However, naively applying causal distillation to such dual-stream architectures triggers severe training instability, due to the extreme temporal asymmetry between modalities and the resulting token sparsity. We address the inherent information density gap by introducing an Asymmetric Block-Causal Alignment with a zero-truncation Global Prefix that prevents multi-modal synchronization drift. The gradient explosion caused by extreme audio token sparsity during the causal shift is further resolved through an Audio Sink Token mechanism equipped with an Identity RoPE constraint. Finally, a Joint Self-Forcing Distillation paradigm enables the model to dynamically self-correct cumulative cross-modal errors from exposure bias during long rollouts. Empowered by a modality-independent rolling KV-cache inference scheme, OmniForcing achieves state-of-the-art streaming generation at sim25 FPS on a single GPU, maintaining multi-modal synchronization and visual quality on par with the bidirectional teacher.Project Page: https://omniforcing.com{https://omniforcing.com}

OmniForcing: Entfesseln von Echtzeit-Joint-Audio-Visueller-Erzeugung

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Zusammenfassung

Support