ChatPaper.aiChatPaper

SoundReactor: Генерация аудио из видео на уровне кадров в режиме реального времени

SoundReactor: Frame-level Online Video-to-Audio Generation

October 2, 2025
Авторы: Koichi Saito, Julian Tanke, Christian Simon, Masato Ishii, Kazuki Shimada, Zachary Novack, Zhi Zhong, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji
cs.AI

Аннотация

Преобладающие модели генерации аудио из видео (Video-to-Audio, V2A) работают в офлайн-режиме, предполагая, что вся последовательность видео или фрагменты кадров доступны заранее. Это существенно ограничивает их использование в интерактивных приложениях, таких как создание контента в реальном времени и развивающиеся генеративные модели миров. Чтобы устранить этот пробел, мы представляем новую задачу генерации аудио из видео на уровне кадров в онлайн-режиме, где модель авторегрессивно генерирует аудио из видео без доступа к будущим кадрам. Кроме того, мы предлагаем SoundReactor, который, насколько нам известно, является первой простой, но эффективной структурой, специально разработанной для этой задачи. Наш подход обеспечивает сквозную причинность и нацелен на низкую задержку на кадр с синхронизацией аудио и видео. Основу нашей модели составляет декодер-трансформер с причинной структурой, работающий с непрерывными латентными представлениями аудио. Для визуального кондиционирования используются сеточные (патч) признаки, извлеченные из наименьшей версии визуального энкодера DINOv2, которые агрегируются в один токен на кадр для поддержания сквозной причинности и эффективности. Модель обучается с использованием предварительного обучения на основе диффузии с последующей тонкой настройкой на согласованность для ускорения декодирования диффузионной головки. На тестовом наборе разнообразных игровых видео из AAA-проектов наша модель успешно генерирует семантически и временно согласованный высококачественный стереозвук с полной полосой частот, что подтверждается как объективными, так и субъективными оценками. Кроме того, наша модель достигает низкой задержки на уровне формы волны на кадр (26,3 мс при NFE=1, 31,5 мс при NFE=4) для видео с частотой 30 кадров в секунду и разрешением 480p с использованием одного GPU H100. Примеры доступны по ссылке: https://koichi-saito-sony.github.io/soundreactor/.
English
Prevailing Video-to-Audio (V2A) generation models operate offline, assuming an entire video sequence or chunks of frames are available beforehand. This critically limits their use in interactive applications such as live content creation and emerging generative world models. To address this gap, we introduce the novel task of frame-level online V2A generation, where a model autoregressively generates audio from video without access to future video frames. Furthermore, we propose SoundReactor, which, to the best of our knowledge, is the first simple yet effective framework explicitly tailored for this task. Our design enforces end-to-end causality and targets low per-frame latency with audio-visual synchronization. Our model's backbone is a decoder-only causal transformer over continuous audio latents. For vision conditioning, it leverages grid (patch) features extracted from the smallest variant of the DINOv2 vision encoder, which are aggregated into a single token per frame to maintain end-to-end causality and efficiency. The model is trained through a diffusion pre-training followed by consistency fine-tuning to accelerate the diffusion head decoding. On a benchmark of diverse gameplay videos from AAA titles, our model successfully generates semantically and temporally aligned, high-quality full-band stereo audio, validated by both objective and human evaluations. Furthermore, our model achieves low per-frame waveform-level latency (26.3ms with the head NFE=1, 31.5ms with NFE=4) on 30FPS, 480p videos using a single H100. Demo samples are available at https://koichi-saito-sony.github.io/soundreactor/.
PDF22October 6, 2025