SoundReactor: Generación de audio a partir de video en tiempo real a nivel de fotograma
SoundReactor: Frame-level Online Video-to-Audio Generation
October 2, 2025
Autores: Koichi Saito, Julian Tanke, Christian Simon, Masato Ishii, Kazuki Shimada, Zachary Novack, Zhi Zhong, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji
cs.AI
Resumen
Los modelos predominantes de generación de Video-a-Audio (V2A) operan de manera offline, asumiendo que se dispone de una secuencia completa de video o fragmentos de fotogramas de antemano. Esto limita críticamente su uso en aplicaciones interactivas, como la creación de contenido en vivo y los modelos generativos emergentes de mundos. Para abordar esta brecha, introducimos la novedosa tarea de generación de V2A en línea a nivel de fotograma, donde un modelo genera audio de manera autoregresiva a partir de video sin acceso a fotogramas futuros. Además, proponemos SoundReactor, que, hasta donde sabemos, es el primer marco simple pero efectivo diseñado explícitamente para esta tarea. Nuestro diseño impone causalidad de extremo a extremo y apunta a una baja latencia por fotograma con sincronización audiovisual. La columna vertebral de nuestro modelo es un transformador causal de solo decodificación sobre latentes de audio continuos. Para el condicionamiento visual, aprovecha características de cuadrícula (parches) extraídas de la variante más pequeña del codificador visual DINOv2, que se agregan en un solo token por fotograma para mantener la causalidad y eficiencia de extremo a extremo. El modelo se entrena mediante un preentrenamiento de difusión seguido de un ajuste fino de consistencia para acelerar la decodificación de la cabeza de difusión. En un benchmark de diversos videos de juegos de títulos AAA, nuestro modelo genera con éxito audio estéreo de banda completa de alta calidad, semántica y temporalmente alineado, validado tanto por evaluaciones objetivas como humanas. Además, nuestro modelo logra una baja latencia a nivel de forma de onda por fotograma (26.3ms con la cabeza NFE=1, 31.5ms con NFE=4) en videos de 30FPS y 480p utilizando una sola H100. Las muestras de demostración están disponibles en https://koichi-saito-sony.github.io/soundreactor/.
English
Prevailing Video-to-Audio (V2A) generation models operate offline, assuming
an entire video sequence or chunks of frames are available beforehand. This
critically limits their use in interactive applications such as live content
creation and emerging generative world models. To address this gap, we
introduce the novel task of frame-level online V2A generation, where a model
autoregressively generates audio from video without access to future video
frames. Furthermore, we propose SoundReactor, which, to the best of our
knowledge, is the first simple yet effective framework explicitly tailored for
this task. Our design enforces end-to-end causality and targets low per-frame
latency with audio-visual synchronization. Our model's backbone is a
decoder-only causal transformer over continuous audio latents. For vision
conditioning, it leverages grid (patch) features extracted from the smallest
variant of the DINOv2 vision encoder, which are aggregated into a single token
per frame to maintain end-to-end causality and efficiency. The model is trained
through a diffusion pre-training followed by consistency fine-tuning to
accelerate the diffusion head decoding. On a benchmark of diverse gameplay
videos from AAA titles, our model successfully generates semantically and
temporally aligned, high-quality full-band stereo audio, validated by both
objective and human evaluations. Furthermore, our model achieves low per-frame
waveform-level latency (26.3ms with the head NFE=1, 31.5ms with NFE=4) on
30FPS, 480p videos using a single H100. Demo samples are available at
https://koichi-saito-sony.github.io/soundreactor/.