SoundReactor: Генерация аудио из видео на уровне кадров в режиме реального времени
SoundReactor: Frame-level Online Video-to-Audio Generation
October 2, 2025
Авторы: Koichi Saito, Julian Tanke, Christian Simon, Masato Ishii, Kazuki Shimada, Zachary Novack, Zhi Zhong, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji
cs.AI
Аннотация
Преобладающие модели генерации аудио из видео (Video-to-Audio, V2A) работают в офлайн-режиме, предполагая, что вся последовательность видео или фрагменты кадров доступны заранее. Это существенно ограничивает их использование в интерактивных приложениях, таких как создание контента в реальном времени и развивающиеся генеративные модели миров. Чтобы устранить этот пробел, мы представляем новую задачу генерации аудио из видео на уровне кадров в онлайн-режиме, где модель авторегрессивно генерирует аудио из видео без доступа к будущим кадрам. Кроме того, мы предлагаем SoundReactor, который, насколько нам известно, является первой простой, но эффективной структурой, специально разработанной для этой задачи. Наш подход обеспечивает сквозную причинность и нацелен на низкую задержку на кадр с синхронизацией аудио и видео. Основу нашей модели составляет декодер-трансформер с причинной структурой, работающий с непрерывными латентными представлениями аудио. Для визуального кондиционирования используются сеточные (патч) признаки, извлеченные из наименьшей версии визуального энкодера DINOv2, которые агрегируются в один токен на кадр для поддержания сквозной причинности и эффективности. Модель обучается с использованием предварительного обучения на основе диффузии с последующей тонкой настройкой на согласованность для ускорения декодирования диффузионной головки. На тестовом наборе разнообразных игровых видео из AAA-проектов наша модель успешно генерирует семантически и временно согласованный высококачественный стереозвук с полной полосой частот, что подтверждается как объективными, так и субъективными оценками. Кроме того, наша модель достигает низкой задержки на уровне формы волны на кадр (26,3 мс при NFE=1, 31,5 мс при NFE=4) для видео с частотой 30 кадров в секунду и разрешением 480p с использованием одного GPU H100. Примеры доступны по ссылке: https://koichi-saito-sony.github.io/soundreactor/.
English
Prevailing Video-to-Audio (V2A) generation models operate offline, assuming
an entire video sequence or chunks of frames are available beforehand. This
critically limits their use in interactive applications such as live content
creation and emerging generative world models. To address this gap, we
introduce the novel task of frame-level online V2A generation, where a model
autoregressively generates audio from video without access to future video
frames. Furthermore, we propose SoundReactor, which, to the best of our
knowledge, is the first simple yet effective framework explicitly tailored for
this task. Our design enforces end-to-end causality and targets low per-frame
latency with audio-visual synchronization. Our model's backbone is a
decoder-only causal transformer over continuous audio latents. For vision
conditioning, it leverages grid (patch) features extracted from the smallest
variant of the DINOv2 vision encoder, which are aggregated into a single token
per frame to maintain end-to-end causality and efficiency. The model is trained
through a diffusion pre-training followed by consistency fine-tuning to
accelerate the diffusion head decoding. On a benchmark of diverse gameplay
videos from AAA titles, our model successfully generates semantically and
temporally aligned, high-quality full-band stereo audio, validated by both
objective and human evaluations. Furthermore, our model achieves low per-frame
waveform-level latency (26.3ms with the head NFE=1, 31.5ms with NFE=4) on
30FPS, 480p videos using a single H100. Demo samples are available at
https://koichi-saito-sony.github.io/soundreactor/.