SoundReactor: Generación de audio a partir de video en tiempo real a nivel de fotograma

Resumen

Los modelos predominantes de generación de Video-a-Audio (V2A) operan de manera offline, asumiendo que se dispone de una secuencia completa de video o fragmentos de fotogramas de antemano. Esto limita críticamente su uso en aplicaciones interactivas, como la creación de contenido en vivo y los modelos generativos emergentes de mundos. Para abordar esta brecha, introducimos la novedosa tarea de generación de V2A en línea a nivel de fotograma, donde un modelo genera audio de manera autoregresiva a partir de video sin acceso a fotogramas futuros. Además, proponemos SoundReactor, que, hasta donde sabemos, es el primer marco simple pero efectivo diseñado explícitamente para esta tarea. Nuestro diseño impone causalidad de extremo a extremo y apunta a una baja latencia por fotograma con sincronización audiovisual. La columna vertebral de nuestro modelo es un transformador causal de solo decodificación sobre latentes de audio continuos. Para el condicionamiento visual, aprovecha características de cuadrícula (parches) extraídas de la variante más pequeña del codificador visual DINOv2, que se agregan en un solo token por fotograma para mantener la causalidad y eficiencia de extremo a extremo. El modelo se entrena mediante un preentrenamiento de difusión seguido de un ajuste fino de consistencia para acelerar la decodificación de la cabeza de difusión. En un benchmark de diversos videos de juegos de títulos AAA, nuestro modelo genera con éxito audio estéreo de banda completa de alta calidad, semántica y temporalmente alineado, validado tanto por evaluaciones objetivas como humanas. Además, nuestro modelo logra una baja latencia a nivel de forma de onda por fotograma (26.3ms con la cabeza NFE=1, 31.5ms con NFE=4) en videos de 30FPS y 480p utilizando una sola H100. Las muestras de demostración están disponibles en https://koichi-saito-sony.github.io/soundreactor/.

English

Prevailing Video-to-Audio (V2A) generation models operate offline, assuming an entire video sequence or chunks of frames are available beforehand. This critically limits their use in interactive applications such as live content creation and emerging generative world models. To address this gap, we introduce the novel task of frame-level online V2A generation, where a model autoregressively generates audio from video without access to future video frames. Furthermore, we propose SoundReactor, which, to the best of our knowledge, is the first simple yet effective framework explicitly tailored for this task. Our design enforces end-to-end causality and targets low per-frame latency with audio-visual synchronization. Our model's backbone is a decoder-only causal transformer over continuous audio latents. For vision conditioning, it leverages grid (patch) features extracted from the smallest variant of the DINOv2 vision encoder, which are aggregated into a single token per frame to maintain end-to-end causality and efficiency. The model is trained through a diffusion pre-training followed by consistency fine-tuning to accelerate the diffusion head decoding. On a benchmark of diverse gameplay videos from AAA titles, our model successfully generates semantically and temporally aligned, high-quality full-band stereo audio, validated by both objective and human evaluations. Furthermore, our model achieves low per-frame waveform-level latency (26.3ms with the head NFE=1, 31.5ms with NFE=4) on 30FPS, 480p videos using a single H100. Demo samples are available at https://koichi-saito-sony.github.io/soundreactor/.

SoundReactor: Generación de audio a partir de video en tiempo real a nivel de fotograma

SoundReactor: Frame-level Online Video-to-Audio Generation

Resumen

Support