ChatPaper.aiChatPaper

OmniForcing: リアルタイム連携オーディオビジュアル生成の解放

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

March 12, 2026
著者: Yaofeng Su, Yuming Li, Zeyue Xue, Jie Huang, Siming Fu, Haoran Li, Ying Li, Zezhong Qian, Haoyang Huang, Nan Duan
cs.AI

要旨

近年のオーディオビジュアル統合拡散モデルは、高い生成品質を実現しているものの、双方向アテンションの依存関係による高レイテンシが課題となり、リアルタイム応用が妨げられていました。本研究では、オフラインの双方向拡散モデルを高品質なストリーミング自己回帰生成器に蒸留する初のフレームワーク「OmniForcing」を提案します。しかし、このような二重ストリーム構造に対して単純に因果的蒸留を適用すると、モダリティ間の極端な時間的非対称性とそれに伴うトークンの疎性により、深刻な学習不安定が生じます。我々は、非対称ブロック因果アラインメントとゼロ切り捨てグローバルプレフィックスを導入し、マルチモーダル同期のずれを防ぐことで、本質的な情報密度格差に対処します。さらに、因果シフト時の極度のオーディオトークン疎性による勾配爆発は、Identity RoPE制約を備えたオーディオシンクトークン機構によって解決されます。最後に、結合自己強制蒸留パラダイムにより、長時間のロールアウト中に生じる累積的なクロスモーダル誤差をモデルが動的に自己補正できるようにします。モダリティ非依存のローリングKVキャッシュ推論スキームにより、OmniForcingは単一GPU上で約25 FPSの状態-of-the-artストリーミング生成を実現し、双方向教師モデルと同等のマルチモーダル同期性と視覚品質を維持します。プロジェクトページ: https://omniforcing.com
English
Recent joint audio-visual diffusion models achieve remarkable generation quality but suffer from high latency due to their bidirectional attention dependencies, hindering real-time applications. We propose OmniForcing, the first framework to distill an offline, dual-stream bidirectional diffusion model into a high-fidelity streaming autoregressive generator. However, naively applying causal distillation to such dual-stream architectures triggers severe training instability, due to the extreme temporal asymmetry between modalities and the resulting token sparsity. We address the inherent information density gap by introducing an Asymmetric Block-Causal Alignment with a zero-truncation Global Prefix that prevents multi-modal synchronization drift. The gradient explosion caused by extreme audio token sparsity during the causal shift is further resolved through an Audio Sink Token mechanism equipped with an Identity RoPE constraint. Finally, a Joint Self-Forcing Distillation paradigm enables the model to dynamically self-correct cumulative cross-modal errors from exposure bias during long rollouts. Empowered by a modality-independent rolling KV-cache inference scheme, OmniForcing achieves state-of-the-art streaming generation at sim25 FPS on a single GPU, maintaining multi-modal synchronization and visual quality on par with the bidirectional teacher.Project Page: https://omniforcing.com{https://omniforcing.com}
PDF314March 30, 2026