SoundReactor : Génération en ligne vidéo-vers-audio au niveau de la trame
SoundReactor: Frame-level Online Video-to-Audio Generation
October 2, 2025
papers.authors: Koichi Saito, Julian Tanke, Christian Simon, Masato Ishii, Kazuki Shimada, Zachary Novack, Zhi Zhong, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji
cs.AI
papers.abstract
Les modèles actuels de génération vidéo-vers-audio (V2A) fonctionnent hors ligne, en supposant qu'une séquence vidéo entière ou des segments d'images sont disponibles au préalable. Cela limite considérablement leur utilisation dans des applications interactives telles que la création de contenu en direct et les modèles génératifs émergents de mondes virtuels. Pour combler cette lacune, nous introduisons la nouvelle tâche de génération V2A en ligne au niveau de l'image, où un modèle génère de manière autoregressive l'audio à partir de la vidéo sans accès aux images vidéo futures. De plus, nous proposons SoundReactor, qui, à notre connaissance, est le premier cadre simple mais efficace explicitement conçu pour cette tâche. Notre conception impose une causalité de bout en bout et vise une faible latence par image avec une synchronisation audio-visuelle. L'architecture de notre modèle repose sur un transformeur causal à décodeur uniquement, opérant sur des latents audio continus. Pour le conditionnement visuel, il exploite des caractéristiques de grille (patch) extraites de la plus petite variante de l'encodeur visuel DINOv2, qui sont agrégées en un seul token par image pour maintenir la causalité et l'efficacité de bout en bout. Le modèle est entraîné via un pré-entraînement par diffusion suivi d'un affinage de cohérence pour accélérer le décodage de la tête de diffusion. Sur un benchmark de vidéos de gameplay variées issues de titres AAA, notre modèle génère avec succès un audio stéréo de haute qualité, sémantiquement et temporellement aligné, validé par des évaluations objectives et humaines. De plus, notre modèle atteint une faible latence au niveau de la forme d'onde par image (26,3 ms avec NFE=1, 31,5 ms avec NFE=4) sur des vidéos à 30 FPS et 480p en utilisant un seul H100. Des échantillons de démonstration sont disponibles à l'adresse https://koichi-saito-sony.github.io/soundreactor/.
English
Prevailing Video-to-Audio (V2A) generation models operate offline, assuming
an entire video sequence or chunks of frames are available beforehand. This
critically limits their use in interactive applications such as live content
creation and emerging generative world models. To address this gap, we
introduce the novel task of frame-level online V2A generation, where a model
autoregressively generates audio from video without access to future video
frames. Furthermore, we propose SoundReactor, which, to the best of our
knowledge, is the first simple yet effective framework explicitly tailored for
this task. Our design enforces end-to-end causality and targets low per-frame
latency with audio-visual synchronization. Our model's backbone is a
decoder-only causal transformer over continuous audio latents. For vision
conditioning, it leverages grid (patch) features extracted from the smallest
variant of the DINOv2 vision encoder, which are aggregated into a single token
per frame to maintain end-to-end causality and efficiency. The model is trained
through a diffusion pre-training followed by consistency fine-tuning to
accelerate the diffusion head decoding. On a benchmark of diverse gameplay
videos from AAA titles, our model successfully generates semantically and
temporally aligned, high-quality full-band stereo audio, validated by both
objective and human evaluations. Furthermore, our model achieves low per-frame
waveform-level latency (26.3ms with the head NFE=1, 31.5ms with NFE=4) on
30FPS, 480p videos using a single H100. Demo samples are available at
https://koichi-saito-sony.github.io/soundreactor/.