ChatPaper.aiChatPaper

OmniForcing: 실시간 음향-시각 연합 생성의 해방

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

March 12, 2026
저자: Yaofeng Su, Yuming Li, Zeyue Xue, Jie Huang, Siming Fu, Haoran Li, Ying Li, Zezhong Qian, Haoyang Huang, Nan Duan
cs.AI

초록

최근 등장한 음향-시각 결합 확산 모델은 뛰어난 생성 품질을 달성했지만, 양방향 어텐션 의존성으로 인한 높은 지연 시간으로 실시간 적용에 어려움을 겪고 있습니다. 본 논문에서는 오프라인 이중 스트림 양방향 확산 모델을 고품질 스트리밍 자기회귀 생성기로 지식 증류하는 최초의 프레임워크인 OmniForcing를 제안합니다. 그러나 이러한 이중 스트림 아키텍처에 인과적 증류를 단순 적용할 경우, 양식 간 극심한 시간적 비대칭성과 이로 인한 토큰 희소성으로 심각한 학습 불안정성이 발생합니다. 우리는 다중 양식 동기화 드리프트를 방지하는 제로-절단 글로벌 프리픽스를 포함한 비대칭 블록-인과 정렬을 도입하여 본질적인 정보 밀도 격차를 해결합니다. 인과적 전이 과정에서 극단적인 오디오 토큰 희소성으로 인한 그래디언트 폭발은 Identity RoPE 제약을 갖춘 오디오 싱크 토큰 메커니즘을 통해 추가적으로 해결됩니다. 마지막으로, 공동 자기 강제 증류 패러다임을 통해 모델이 긴 롤아웃 동안 노출 편향으로 인한 누적된 교차 양식 오류를 동적으로 자가 수정할 수 있도록 합니다. 양식 독립적인 롤링 KV-캐시 추론 방식을 통해 OmniForcing는 단일 GPU에서 25 FPS에 가까운 최첨단 스트리밍 생성을 달성하며, 양방향 교사 모델과 동등한 다중 양식 동기화 및 시각적 품질을 유지합니다. 프로젝트 페이지: https://omniforcing.com{https://omniforcing.com}
English
Recent joint audio-visual diffusion models achieve remarkable generation quality but suffer from high latency due to their bidirectional attention dependencies, hindering real-time applications. We propose OmniForcing, the first framework to distill an offline, dual-stream bidirectional diffusion model into a high-fidelity streaming autoregressive generator. However, naively applying causal distillation to such dual-stream architectures triggers severe training instability, due to the extreme temporal asymmetry between modalities and the resulting token sparsity. We address the inherent information density gap by introducing an Asymmetric Block-Causal Alignment with a zero-truncation Global Prefix that prevents multi-modal synchronization drift. The gradient explosion caused by extreme audio token sparsity during the causal shift is further resolved through an Audio Sink Token mechanism equipped with an Identity RoPE constraint. Finally, a Joint Self-Forcing Distillation paradigm enables the model to dynamically self-correct cumulative cross-modal errors from exposure bias during long rollouts. Empowered by a modality-independent rolling KV-cache inference scheme, OmniForcing achieves state-of-the-art streaming generation at sim25 FPS on a single GPU, maintaining multi-modal synchronization and visual quality on par with the bidirectional teacher.Project Page: https://omniforcing.com{https://omniforcing.com}
PDF314March 30, 2026