OmniForcing: Liberando la Generación Conjunta de Audio y Video en Tiempo Real

Resumen

Los modelos de difusión audio-visuales conjuntos recientes logran una calidad de generación notable, pero adolecen de una alta latencia debido a sus dependencias de atención bidireccional, lo que dificulta las aplicaciones en tiempo real. Proponemos OmniForcing, el primer marco que distila un modelo de difusión bidireccional de doble flujo, offline, en un generador autoregresivo de streaming de alta fidelidad. Sin embargo, aplicar ingenuamente la destilación causal a tales arquitecturas de doble flujo desencadena una grave inestabilidad en el entrenamiento, debido a la extrema asimetría temporal entre modalidades y la consiguiente esparcidad de tokens. Abordamos la brecha inherente en la densidad de información introduciendo una Alineación Causal en Bloques Asimétrica con un Prefijo Global de truncamiento a cero que previene el desfase en la sincronización multimodal. La explosión de gradientes causada por la extrema esparcidad de tokens de audio durante el cambio causal se resuelve además mediante un mecanismo de Token Sumidero de Audio equipado con una restricción RoPE de Identidad. Finalmente, un paradigma de Destilación Conjunta de Auto-Forzado permite que el modelo se autocorrija dinámicamente los errores multimodales acumulados por el sesgo de exposición durante las generaciones largas. Potenciado por un esquema de inferencia con caché KV rodante independiente de la modalidad, OmniForcing logra una generación en streaming de última generación a aproximadamente 25 FPS en una sola GPU, manteniendo la sincronización multimodal y la calidad visual a la par con el modelo bidireccional maestro.Página del proyecto: https://omniforcing.com{https://omniforcing.com}

English

Recent joint audio-visual diffusion models achieve remarkable generation quality but suffer from high latency due to their bidirectional attention dependencies, hindering real-time applications. We propose OmniForcing, the first framework to distill an offline, dual-stream bidirectional diffusion model into a high-fidelity streaming autoregressive generator. However, naively applying causal distillation to such dual-stream architectures triggers severe training instability, due to the extreme temporal asymmetry between modalities and the resulting token sparsity. We address the inherent information density gap by introducing an Asymmetric Block-Causal Alignment with a zero-truncation Global Prefix that prevents multi-modal synchronization drift. The gradient explosion caused by extreme audio token sparsity during the causal shift is further resolved through an Audio Sink Token mechanism equipped with an Identity RoPE constraint. Finally, a Joint Self-Forcing Distillation paradigm enables the model to dynamically self-correct cumulative cross-modal errors from exposure bias during long rollouts. Empowered by a modality-independent rolling KV-cache inference scheme, OmniForcing achieves state-of-the-art streaming generation at sim25 FPS on a single GPU, maintaining multi-modal synchronization and visual quality on par with the bidirectional teacher.Project Page: https://omniforcing.com{https://omniforcing.com}

OmniForcing: Liberando la Generación Conjunta de Audio y Video en Tiempo Real

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Resumen

Support