ChatPaper.aiChatPaper

SoundReactor: フレームレベルでのオンライン映像-音声生成

SoundReactor: Frame-level Online Video-to-Audio Generation

October 2, 2025
著者: Koichi Saito, Julian Tanke, Christian Simon, Masato Ishii, Kazuki Shimada, Zachary Novack, Zhi Zhong, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji
cs.AI

要旨

既存のビデオからオーディオ(V2A)生成モデルはオフラインで動作し、ビデオシーケンス全体またはフレームのチャンクが事前に利用可能であることを前提としています。これにより、ライブコンテンツ制作や新興の生成世界モデルなどのインタラクティブなアプリケーションでの使用が大幅に制限されています。このギャップを埋めるため、我々はフレームレベルのオンラインV2A生成という新たなタスクを提案します。このタスクでは、モデルが未来のビデオフレームにアクセスすることなく、ビデオからオーディオを自己回帰的に生成します。さらに、我々はSoundReactorを提案します。これは、我々の知る限り、このタスクに特化した最初のシンプルかつ効果的なフレームワークです。我々の設計は、エンドツーエンドの因果性を強制し、オーディオビジュアル同期を維持しながら、フレームごとの低遅延を目指しています。我々のモデルのバックボーンは、連続オーディオ潜在変数に対するデコーダのみの因果的トランスフォーマーです。ビジョン条件付けのために、DINOv2ビジョンエンコーダの最小バリアントから抽出されたグリッド(パッチ)特徴を利用し、フレームごとに単一のトークンに集約して、エンドツーエンドの因果性と効率性を維持します。モデルは、拡散事前学習と一貫性ファインチューニングを通じて訓練され、拡散ヘッドデコードを加速します。AAAタイトルからの多様なゲームプレイビデオのベンチマークにおいて、我々のモデルは、意味的および時間的に整合した高品質のフルバンドステレオオーディオを生成し、客観的評価と人間評価の両方で検証されました。さらに、我々のモデルは、30FPS、480pのビデオにおいて、単一のH100を使用して、フレームごとの波形レベルの低遅延(NFE=1で26.3ms、NFE=4で31.5ms)を達成しました。デモサンプルはhttps://koichi-saito-sony.github.io/soundreactor/で利用可能です。
English
Prevailing Video-to-Audio (V2A) generation models operate offline, assuming an entire video sequence or chunks of frames are available beforehand. This critically limits their use in interactive applications such as live content creation and emerging generative world models. To address this gap, we introduce the novel task of frame-level online V2A generation, where a model autoregressively generates audio from video without access to future video frames. Furthermore, we propose SoundReactor, which, to the best of our knowledge, is the first simple yet effective framework explicitly tailored for this task. Our design enforces end-to-end causality and targets low per-frame latency with audio-visual synchronization. Our model's backbone is a decoder-only causal transformer over continuous audio latents. For vision conditioning, it leverages grid (patch) features extracted from the smallest variant of the DINOv2 vision encoder, which are aggregated into a single token per frame to maintain end-to-end causality and efficiency. The model is trained through a diffusion pre-training followed by consistency fine-tuning to accelerate the diffusion head decoding. On a benchmark of diverse gameplay videos from AAA titles, our model successfully generates semantically and temporally aligned, high-quality full-band stereo audio, validated by both objective and human evaluations. Furthermore, our model achieves low per-frame waveform-level latency (26.3ms with the head NFE=1, 31.5ms with NFE=4) on 30FPS, 480p videos using a single H100. Demo samples are available at https://koichi-saito-sony.github.io/soundreactor/.
PDF22October 6, 2025