SoundReactor: Framegebaseerde Online Video-naar-Audio Generatie
SoundReactor: Frame-level Online Video-to-Audio Generation
October 2, 2025
Auteurs: Koichi Saito, Julian Tanke, Christian Simon, Masato Ishii, Kazuki Shimada, Zachary Novack, Zhi Zhong, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji
cs.AI
Samenvatting
Bestaande Video-naar-Audio (V2A) generatiemodellen werken offline, waarbij wordt aangenomen dat een volledige videosequentie of chunks van frames van tevoren beschikbaar zijn. Dit beperkt hun gebruik in interactieve toepassingen, zoals live contentcreatie en opkomende generatieve wereldmodellen, aanzienlijk. Om deze kloof te overbruggen, introduceren we de nieuwe taak van frame-level online V2A-generatie, waarbij een model autoregressief audio genereert uit video zonder toegang tot toekomstige videoframes. Bovendien stellen we SoundReactor voor, dat, voor zover wij weten, het eerste eenvoudige maar effectieve framework is dat specifiek is ontworpen voor deze taak. Ons ontwerp handhaaft end-to-end causaliteit en streeft naar lage latentie per frame met audio-visuele synchronisatie. De ruggengraat van ons model is een decoder-only causale transformer over continue audio latenties. Voor visuele conditionering maakt het gebruik van grid (patch) features die zijn geëxtraheerd uit de kleinste variant van de DINOv2 vision encoder, die worden samengevoegd tot een enkele token per frame om end-to-end causaliteit en efficiëntie te behouden. Het model wordt getraind door middel van een diffusie-pre-training gevolgd door consistency fine-tuning om het decoderen van de diffusie head te versnellen. Op een benchmark van diverse gameplay-video's van AAA-titels genereert ons model met succes semantisch en temporeel uitgelijnde, hoogwaardige full-band stereo-audio, gevalideerd door zowel objectieve als menselijke evaluaties. Bovendien bereikt ons model een lage latentie op waveform-niveau per frame (26,3 ms met de head NFE=1, 31,5 ms met NFE=4) op 30FPS, 480p video's met behulp van een enkele H100. Demosamples zijn beschikbaar op https://koichi-saito-sony.github.io/soundreactor/.
English
Prevailing Video-to-Audio (V2A) generation models operate offline, assuming
an entire video sequence or chunks of frames are available beforehand. This
critically limits their use in interactive applications such as live content
creation and emerging generative world models. To address this gap, we
introduce the novel task of frame-level online V2A generation, where a model
autoregressively generates audio from video without access to future video
frames. Furthermore, we propose SoundReactor, which, to the best of our
knowledge, is the first simple yet effective framework explicitly tailored for
this task. Our design enforces end-to-end causality and targets low per-frame
latency with audio-visual synchronization. Our model's backbone is a
decoder-only causal transformer over continuous audio latents. For vision
conditioning, it leverages grid (patch) features extracted from the smallest
variant of the DINOv2 vision encoder, which are aggregated into a single token
per frame to maintain end-to-end causality and efficiency. The model is trained
through a diffusion pre-training followed by consistency fine-tuning to
accelerate the diffusion head decoding. On a benchmark of diverse gameplay
videos from AAA titles, our model successfully generates semantically and
temporally aligned, high-quality full-band stereo audio, validated by both
objective and human evaluations. Furthermore, our model achieves low per-frame
waveform-level latency (26.3ms with the head NFE=1, 31.5ms with NFE=4) on
30FPS, 480p videos using a single H100. Demo samples are available at
https://koichi-saito-sony.github.io/soundreactor/.