SoundReactor: フレームレベルでのオンライン映像-音声生成
SoundReactor: Frame-level Online Video-to-Audio Generation
October 2, 2025
著者: Koichi Saito, Julian Tanke, Christian Simon, Masato Ishii, Kazuki Shimada, Zachary Novack, Zhi Zhong, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji
cs.AI
要旨
既存のビデオからオーディオ(V2A)生成モデルはオフラインで動作し、ビデオシーケンス全体またはフレームのチャンクが事前に利用可能であることを前提としています。これにより、ライブコンテンツ制作や新興の生成世界モデルなどのインタラクティブなアプリケーションでの使用が大幅に制限されています。このギャップを埋めるため、我々はフレームレベルのオンラインV2A生成という新たなタスクを提案します。このタスクでは、モデルが未来のビデオフレームにアクセスすることなく、ビデオからオーディオを自己回帰的に生成します。さらに、我々はSoundReactorを提案します。これは、我々の知る限り、このタスクに特化した最初のシンプルかつ効果的なフレームワークです。我々の設計は、エンドツーエンドの因果性を強制し、オーディオビジュアル同期を維持しながら、フレームごとの低遅延を目指しています。我々のモデルのバックボーンは、連続オーディオ潜在変数に対するデコーダのみの因果的トランスフォーマーです。ビジョン条件付けのために、DINOv2ビジョンエンコーダの最小バリアントから抽出されたグリッド(パッチ)特徴を利用し、フレームごとに単一のトークンに集約して、エンドツーエンドの因果性と効率性を維持します。モデルは、拡散事前学習と一貫性ファインチューニングを通じて訓練され、拡散ヘッドデコードを加速します。AAAタイトルからの多様なゲームプレイビデオのベンチマークにおいて、我々のモデルは、意味的および時間的に整合した高品質のフルバンドステレオオーディオを生成し、客観的評価と人間評価の両方で検証されました。さらに、我々のモデルは、30FPS、480pのビデオにおいて、単一のH100を使用して、フレームごとの波形レベルの低遅延(NFE=1で26.3ms、NFE=4で31.5ms)を達成しました。デモサンプルはhttps://koichi-saito-sony.github.io/soundreactor/で利用可能です。
English
Prevailing Video-to-Audio (V2A) generation models operate offline, assuming
an entire video sequence or chunks of frames are available beforehand. This
critically limits their use in interactive applications such as live content
creation and emerging generative world models. To address this gap, we
introduce the novel task of frame-level online V2A generation, where a model
autoregressively generates audio from video without access to future video
frames. Furthermore, we propose SoundReactor, which, to the best of our
knowledge, is the first simple yet effective framework explicitly tailored for
this task. Our design enforces end-to-end causality and targets low per-frame
latency with audio-visual synchronization. Our model's backbone is a
decoder-only causal transformer over continuous audio latents. For vision
conditioning, it leverages grid (patch) features extracted from the smallest
variant of the DINOv2 vision encoder, which are aggregated into a single token
per frame to maintain end-to-end causality and efficiency. The model is trained
through a diffusion pre-training followed by consistency fine-tuning to
accelerate the diffusion head decoding. On a benchmark of diverse gameplay
videos from AAA titles, our model successfully generates semantically and
temporally aligned, high-quality full-band stereo audio, validated by both
objective and human evaluations. Furthermore, our model achieves low per-frame
waveform-level latency (26.3ms with the head NFE=1, 31.5ms with NFE=4) on
30FPS, 480p videos using a single H100. Demo samples are available at
https://koichi-saito-sony.github.io/soundreactor/.