SoundReactor: Geração de Áudio a partir de Vídeo em Tempo Real no Nível de Quadros
SoundReactor: Frame-level Online Video-to-Audio Generation
October 2, 2025
Autores: Koichi Saito, Julian Tanke, Christian Simon, Masato Ishii, Kazuki Shimada, Zachary Novack, Zhi Zhong, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji
cs.AI
Resumo
Os modelos predominantes de geração de Vídeo-para-Áudio (V2A) operam de forma offline, assumindo que uma sequência de vídeo completa ou segmentos de quadros estão disponíveis previamente. Isso limita criticamente seu uso em aplicações interativas, como criação de conteúdo ao vivo e modelos de mundo generativos emergentes. Para abordar essa lacuna, introduzimos a nova tarefa de geração online de V2A em nível de quadro, onde um modelo gera áudio a partir de vídeo de forma autoregressiva, sem acesso a quadros futuros do vídeo. Além disso, propomos o SoundReactor, que, até onde sabemos, é o primeiro framework simples, porém eficaz, explicitamente projetado para essa tarefa. Nosso projeto impõe causalidade de ponta a ponta e visa baixa latência por quadro com sincronização áudio-visual. A espinha dorsal do nosso modelo é um transformador causal apenas de decodificação sobre latentes de áudio contínuos. Para condicionamento visual, ele aproveita características de grade (patch) extraídas da menor variante do codificador visual DINOv2, que são agregadas em um único token por quadro para manter a causalidade e eficiência de ponta a ponta. O modelo é treinado por meio de um pré-treinamento de difusão seguido de ajuste fino de consistência para acelerar a decodificação da cabeça de difusão. Em um benchmark de diversos vídeos de gameplay de títulos AAA, nosso modelo gera com sucesso áudio estéreo de banda completa, semanticamente e temporalmente alinhado e de alta qualidade, validado por avaliações objetivas e humanas. Além disso, nosso modelo alcança baixa latência em nível de forma de onda por quadro (26,3ms com a cabeça NFE=1, 31,5ms com NFE=4) em vídeos de 30FPS, 480p usando um único H100. Amostras de demonstração estão disponíveis em https://koichi-saito-sony.github.io/soundreactor/.
English
Prevailing Video-to-Audio (V2A) generation models operate offline, assuming
an entire video sequence or chunks of frames are available beforehand. This
critically limits their use in interactive applications such as live content
creation and emerging generative world models. To address this gap, we
introduce the novel task of frame-level online V2A generation, where a model
autoregressively generates audio from video without access to future video
frames. Furthermore, we propose SoundReactor, which, to the best of our
knowledge, is the first simple yet effective framework explicitly tailored for
this task. Our design enforces end-to-end causality and targets low per-frame
latency with audio-visual synchronization. Our model's backbone is a
decoder-only causal transformer over continuous audio latents. For vision
conditioning, it leverages grid (patch) features extracted from the smallest
variant of the DINOv2 vision encoder, which are aggregated into a single token
per frame to maintain end-to-end causality and efficiency. The model is trained
through a diffusion pre-training followed by consistency fine-tuning to
accelerate the diffusion head decoding. On a benchmark of diverse gameplay
videos from AAA titles, our model successfully generates semantically and
temporally aligned, high-quality full-band stereo audio, validated by both
objective and human evaluations. Furthermore, our model achieves low per-frame
waveform-level latency (26.3ms with the head NFE=1, 31.5ms with NFE=4) on
30FPS, 480p videos using a single H100. Demo samples are available at
https://koichi-saito-sony.github.io/soundreactor/.