SoundReactor: Generazione audio da video online a livello di frame
SoundReactor: Frame-level Online Video-to-Audio Generation
October 2, 2025
Autori: Koichi Saito, Julian Tanke, Christian Simon, Masato Ishii, Kazuki Shimada, Zachary Novack, Zhi Zhong, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji
cs.AI
Abstract
I modelli prevalenti di generazione Video-to-Audio (V2A) operano offline, presupponendo che un'intera sequenza video o blocchi di frame siano disponibili in anticipo. Ciò limita fortemente il loro utilizzo in applicazioni interattive come la creazione di contenuti in tempo reale e i modelli generativi emergenti di mondi virtuali. Per colmare questa lacuna, introduciamo il nuovo compito della generazione online V2A a livello di frame, in cui un modello genera audio dal video in modo autoregressivo senza accesso ai frame video futuri. Inoltre, proponiamo SoundReactor, che, per quanto ne sappiamo, è il primo framework semplice ma efficace specificamente progettato per questo compito. Il nostro design impone la causalità end-to-end e mira a una bassa latenza per frame con sincronizzazione audio-visiva. La struttura portante del nostro modello è un trasformatore causale decoder-only su latenti audio continui. Per il condizionamento visivo, sfrutta le feature a griglia (patch) estratte dalla variante più piccola dell'encoder visivo DINOv2, che vengono aggregate in un singolo token per frame per mantenere la causalità end-to-end e l'efficienza. Il modello viene addestrato attraverso un pre-training di diffusione seguito da un fine-tuning di consistenza per accelerare la decodifica della testa di diffusione. Su un benchmark di video di gameplay diversi provenienti da titoli AAA, il nostro modello genera con successo audio stereo a banda completa di alta qualità, semanticamente e temporalmente allineato, validato sia da valutazioni oggettive che umane. Inoltre, il nostro modello raggiunge una bassa latenza a livello di waveform per frame (26.3ms con la testa NFE=1, 31.5ms con NFE=4) su video a 30FPS e 480p utilizzando una singola H100. Campioni dimostrativi sono disponibili su https://koichi-saito-sony.github.io/soundreactor/.
English
Prevailing Video-to-Audio (V2A) generation models operate offline, assuming
an entire video sequence or chunks of frames are available beforehand. This
critically limits their use in interactive applications such as live content
creation and emerging generative world models. To address this gap, we
introduce the novel task of frame-level online V2A generation, where a model
autoregressively generates audio from video without access to future video
frames. Furthermore, we propose SoundReactor, which, to the best of our
knowledge, is the first simple yet effective framework explicitly tailored for
this task. Our design enforces end-to-end causality and targets low per-frame
latency with audio-visual synchronization. Our model's backbone is a
decoder-only causal transformer over continuous audio latents. For vision
conditioning, it leverages grid (patch) features extracted from the smallest
variant of the DINOv2 vision encoder, which are aggregated into a single token
per frame to maintain end-to-end causality and efficiency. The model is trained
through a diffusion pre-training followed by consistency fine-tuning to
accelerate the diffusion head decoding. On a benchmark of diverse gameplay
videos from AAA titles, our model successfully generates semantically and
temporally aligned, high-quality full-band stereo audio, validated by both
objective and human evaluations. Furthermore, our model achieves low per-frame
waveform-level latency (26.3ms with the head NFE=1, 31.5ms with NFE=4) on
30FPS, 480p videos using a single H100. Demo samples are available at
https://koichi-saito-sony.github.io/soundreactor/.