비디오 객체 분할 인식 오디오 생성
Video Object Segmentation-Aware Audio Generation
September 30, 2025
저자: Ilpo Viertola, Vladimir Iashin, Esa Rahtu
cs.AI
초록
기존의 다중 모드 오디오 생성 모델은 정확한 사용자 제어가 부족하여 전문적인 폴리 작업 흐름에서의 적용 가능성이 제한적입니다. 특히, 이러한 모델은 전체 비디오에 초점을 맞추고 특정 장면 내 객체를 우선적으로 처리하거나 불필요한 배경 소음을 생성하거나 잘못된 객체에 집중하는 정확한 방법을 제공하지 않습니다. 이러한 격차를 해결하기 위해, 우리는 객체 수준의 분할 맵에 명시적으로 조건을 부여한 비디오 객체 분할 인식 오디오 생성이라는 새로운 작업을 소개합니다. 우리는 시각적 분할 마스크와 비디오 및 텍스트 단서를 활용하여 제어 가능한 오디오 생성을 가능하게 하는 새로운 다중 모드 생성 모델인 SAGANet을 제시합니다. 우리의 모델은 사용자에게 오디오 생성에 대한 세밀하고 시각적으로 지역화된 제어를 제공합니다. 이 작업과 분할 인식 폴리에 대한 추가 연구를 지원하기 위해, 우리는 분할 정보가 포함된 악기 연주 비디오의 벤치마크 데이터셋인 Segmented Music Solos를 제안합니다. 우리의 방법은 현재의 최첨단 방법들에 비해 상당한 개선을 보여주며, 제어 가능하고 고충실도의 폴리 합성을 위한 새로운 기준을 설정합니다. 코드, 샘플 및 Segmented Music Solos는 https://saganet.notion.site에서 확인할 수 있습니다.
English
Existing multimodal audio generation models often lack precise user control,
which limits their applicability in professional Foley workflows. In
particular, these models focus on the entire video and do not provide precise
methods for prioritizing a specific object within a scene, generating
unnecessary background sounds, or focusing on the wrong objects. To address
this gap, we introduce the novel task of video object segmentation-aware audio
generation, which explicitly conditions sound synthesis on object-level
segmentation maps. We present SAGANet, a new multimodal generative model that
enables controllable audio generation by leveraging visual segmentation masks
along with video and textual cues. Our model provides users with fine-grained
and visually localized control over audio generation. To support this task and
further research on segmentation-aware Foley, we propose Segmented Music Solos,
a benchmark dataset of musical instrument performance videos with segmentation
information. Our method demonstrates substantial improvements over current
state-of-the-art methods and sets a new standard for controllable,
high-fidelity Foley synthesis. Code, samples, and Segmented Music Solos are
available at https://saganet.notion.site