SoundReactor: 프레임 단위 실시간 비디오-오디오 생성
SoundReactor: Frame-level Online Video-to-Audio Generation
October 2, 2025
저자: Koichi Saito, Julian Tanke, Christian Simon, Masato Ishii, Kazuki Shimada, Zachary Novack, Zhi Zhong, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji
cs.AI
초록
현존하는 비디오-투-오디오(V2A) 생성 모델들은 오프라인 방식으로 동작하며, 전체 비디오 시퀀스나 프레임 청크를 사전에 사용 가능하다고 가정합니다. 이는 라이브 콘텐츠 제작 및 신흥 생성형 세계 모델과 같은 인터랙티브 애플리케이션에서의 사용을 심각하게 제한합니다. 이러한 격차를 해결하기 위해, 우리는 프레임 단위의 온라인 V2A 생성이라는 새로운 과제를 소개합니다. 이 과제에서는 모델이 미래의 비디오 프레임에 접근하지 않고도 비디오로부터 오디오를 자동회귀적으로 생성합니다. 더 나아가, 우리는 SoundReactor를 제안합니다. SoundReactor는 우리가 아는 한, 이 과제에 명시적으로 맞춰진 첫 번째 간단하면서도 효과적인 프레임워크입니다. 우리의 설계는 엔드-투-엔드 인과성을 강화하고 오디오-비주얼 동기화를 통해 프레임당 낮은 지연 시간을 목표로 합니다. 우리 모델의 백본은 연속적인 오디오 잠재 공간에 대한 디코더 전용 인과적 트랜스포머입니다. 비전 조건화를 위해, DINOv2 비전 인코더의 가장 작은 변형에서 추출된 그리드(패치) 특징을 활용하며, 이는 프레임당 단일 토큰으로 집계되어 엔드-투-엔드 인과성과 효율성을 유지합니다. 모델은 확산 사전 학습과 일관성 미세 조정을 통해 훈련되어 확산 헤드 디코딩을 가속화합니다. AAA 타이틀의 다양한 게임플레이 비디오 벤치마크에서, 우리의 모델은 의미론적 및 시간적으로 정렬된 고품질의 풀 밴드 스테레오 오디오를 성공적으로 생성하며, 이는 객관적 및 인간 평가를 통해 검증되었습니다. 더 나아가, 우리의 모델은 단일 H100을 사용하여 30FPS, 480p 비디오에서 낮은 프레임당 파형 수준의 지연 시간(헤드 NFE=1일 때 26.3ms, NFE=4일 때 31.5ms)을 달성합니다. 데모 샘플은 https://koichi-saito-sony.github.io/soundreactor/에서 확인할 수 있습니다.
English
Prevailing Video-to-Audio (V2A) generation models operate offline, assuming
an entire video sequence or chunks of frames are available beforehand. This
critically limits their use in interactive applications such as live content
creation and emerging generative world models. To address this gap, we
introduce the novel task of frame-level online V2A generation, where a model
autoregressively generates audio from video without access to future video
frames. Furthermore, we propose SoundReactor, which, to the best of our
knowledge, is the first simple yet effective framework explicitly tailored for
this task. Our design enforces end-to-end causality and targets low per-frame
latency with audio-visual synchronization. Our model's backbone is a
decoder-only causal transformer over continuous audio latents. For vision
conditioning, it leverages grid (patch) features extracted from the smallest
variant of the DINOv2 vision encoder, which are aggregated into a single token
per frame to maintain end-to-end causality and efficiency. The model is trained
through a diffusion pre-training followed by consistency fine-tuning to
accelerate the diffusion head decoding. On a benchmark of diverse gameplay
videos from AAA titles, our model successfully generates semantically and
temporally aligned, high-quality full-band stereo audio, validated by both
objective and human evaluations. Furthermore, our model achieves low per-frame
waveform-level latency (26.3ms with the head NFE=1, 31.5ms with NFE=4) on
30FPS, 480p videos using a single H100. Demo samples are available at
https://koichi-saito-sony.github.io/soundreactor/.