OmniForcing: Раскрытие потенциала совместного аудиовизуального синтеза в реальном времени

Аннотация

Современные совместные аудиовизуальные диффузионные модели демонстрируют выдающееся качество генерации, но страдают от высокой задержки из-за двунаправленных внимательных зависимостей, что препятствует их применению в реальном времени. Мы предлагаем OmniForcing — первую систему, позволяющую дистиллировать автономную двунаправленную диффузионную модель с двумя потоками в высококачественный потоковый авторегрессионный генератор. Однако прямое применение причинной дистилляции к таким двухпоточным архитектурам приводит к сильной нестабильности обучения из-за крайней временной асимметрии между модальностями и resulting разреженности токенов. Мы устраняем inherent разрыв в плотности информации за счет введения Асимметричного блочно-причинного выравнивания с глобальным префиксом и нулевым усечением, которое предотвращает дрейф межмодальной синхронизации. Градиентный взрыв, вызванный экстремальной разреженностью аудиотокенов при причинном сдвиге, дополнительно решается с помощью механизма Audio Sink Token, оснащенного ограничением Identity RoPE. Наконец, парадигма Joint Self-Forcing Distillation позволяет модели динамически самокорректировать кумулятивные межмодальные ошибки от смещения воздействия при длинных развертываниях. Благодаря независимой от модальностей схеме вывода с rolling KV-кэшем, OmniForcing достигает передовых показателей потоковой генерации на уровне ~25 кадров/с на одном GPU, сохраняя межмодальную синхронизацию и визуальное качество на уровне двунаправленной учительской модели. Страница проекта: https://omniforcing.com

English

Recent joint audio-visual diffusion models achieve remarkable generation quality but suffer from high latency due to their bidirectional attention dependencies, hindering real-time applications. We propose OmniForcing, the first framework to distill an offline, dual-stream bidirectional diffusion model into a high-fidelity streaming autoregressive generator. However, naively applying causal distillation to such dual-stream architectures triggers severe training instability, due to the extreme temporal asymmetry between modalities and the resulting token sparsity. We address the inherent information density gap by introducing an Asymmetric Block-Causal Alignment with a zero-truncation Global Prefix that prevents multi-modal synchronization drift. The gradient explosion caused by extreme audio token sparsity during the causal shift is further resolved through an Audio Sink Token mechanism equipped with an Identity RoPE constraint. Finally, a Joint Self-Forcing Distillation paradigm enables the model to dynamically self-correct cumulative cross-modal errors from exposure bias during long rollouts. Empowered by a modality-independent rolling KV-cache inference scheme, OmniForcing achieves state-of-the-art streaming generation at sim25 FPS on a single GPU, maintaining multi-modal synchronization and visual quality on par with the bidirectional teacher.Project Page: https://omniforcing.com{https://omniforcing.com}

OmniForcing: Раскрытие потенциала совместного аудиовизуального синтеза в реальном времени

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Аннотация

Support