SoundReactor: Frame-basierte Online-Video-zu-Audio-Generierung
SoundReactor: Frame-level Online Video-to-Audio Generation
October 2, 2025
papers.authors: Koichi Saito, Julian Tanke, Christian Simon, Masato Ishii, Kazuki Shimada, Zachary Novack, Zhi Zhong, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji
cs.AI
papers.abstract
Vorherrschende Video-zu-Audio (V2A)-Generierungsmodelle arbeiten offline und gehen davon aus, dass eine gesamte Videosequenz oder Teile von Bildern im Voraus verfügbar sind. Dies schränkt ihre Verwendung in interaktiven Anwendungen wie der Live-Inhaltserstellung und aufstrebenden generativen Weltmodellen erheblich ein. Um diese Lücke zu schließen, führen wir die neuartige Aufgabe der frame-basierten Online-V2A-Generierung ein, bei der ein Modell autoregressiv Audio aus Video erzeugt, ohne Zugriff auf zukünftige Videobilder zu haben. Darüber hinaus präsentieren wir SoundReactor, das unseres Wissens nach der erste einfache, aber effektive Rahmen ist, der speziell für diese Aufgabe entwickelt wurde. Unser Design erzwingt End-to-End-Kausalität und zielt auf eine geringe Latenz pro Frame mit audiovisueller Synchronisation ab. Das Rückgrat unseres Modells ist ein dekodierender kausaler Transformer über kontinuierliche Audio-Latents. Für die visuelle Konditionierung nutzt es Raster- (Patch-) Merkmale, die aus der kleinsten Variante des DINOv2-Vision-Encoders extrahiert werden und pro Frame in ein einzelnes Token aggregiert werden, um End-to-End-Kausalität und Effizienz zu gewährleisten. Das Modell wird durch ein Diffusions-Pre-Training gefolgt von einer Konsistenz-Feinabstimmung trainiert, um die Decodierung des Diffusions-Kopfs zu beschleunigen. Auf einem Benchmark mit diversen Gameplay-Videos von AAA-Titeln erzeugt unser Modell erfolgreich semantisch und zeitlich abgestimmtes, hochwertiges Full-Band-Stereo-Audio, was sowohl durch objektive als auch durch menschliche Bewertungen validiert wurde. Darüber hinaus erreicht unser Modell eine geringe Latenz auf Wellenformebene pro Frame (26,3 ms mit dem Kopf NFE=1, 31,5 ms mit NFE=4) bei 30FPS, 480p-Videos unter Verwendung eines einzelnen H100. Demobeispiele sind verfügbar unter https://koichi-saito-sony.github.io/soundreactor/.
English
Prevailing Video-to-Audio (V2A) generation models operate offline, assuming
an entire video sequence or chunks of frames are available beforehand. This
critically limits their use in interactive applications such as live content
creation and emerging generative world models. To address this gap, we
introduce the novel task of frame-level online V2A generation, where a model
autoregressively generates audio from video without access to future video
frames. Furthermore, we propose SoundReactor, which, to the best of our
knowledge, is the first simple yet effective framework explicitly tailored for
this task. Our design enforces end-to-end causality and targets low per-frame
latency with audio-visual synchronization. Our model's backbone is a
decoder-only causal transformer over continuous audio latents. For vision
conditioning, it leverages grid (patch) features extracted from the smallest
variant of the DINOv2 vision encoder, which are aggregated into a single token
per frame to maintain end-to-end causality and efficiency. The model is trained
through a diffusion pre-training followed by consistency fine-tuning to
accelerate the diffusion head decoding. On a benchmark of diverse gameplay
videos from AAA titles, our model successfully generates semantically and
temporally aligned, high-quality full-band stereo audio, validated by both
objective and human evaluations. Furthermore, our model achieves low per-frame
waveform-level latency (26.3ms with the head NFE=1, 31.5ms with NFE=4) on
30FPS, 480p videos using a single H100. Demo samples are available at
https://koichi-saito-sony.github.io/soundreactor/.