Generazione Audio Consapevole della Segmentazione di Oggetti Video
Video Object Segmentation-Aware Audio Generation
September 30, 2025
Autori: Ilpo Viertola, Vladimir Iashin, Esa Rahtu
cs.AI
Abstract
I modelli esistenti di generazione audio multimodale spesso mancano di un controllo preciso da parte dell'utente, il che ne limita l'applicabilità nei flussi di lavoro professionali di Foley. In particolare, questi modelli si concentrano sull'intero video e non forniscono metodi precisi per dare priorità a un oggetto specifico all'interno di una scena, generando suoni di fondo non necessari o focalizzandosi sugli oggetti sbagliati. Per colmare questa lacuna, introduciamo il nuovo compito della generazione audio consapevole della segmentazione degli oggetti video, che condiziona esplicitamente la sintesi del suono sulle mappe di segmentazione a livello di oggetto. Presentiamo SAGANet, un nuovo modello generativo multimodale che consente una generazione audio controllata sfruttando maschere di segmentazione visiva insieme a segnali video e testuali. Il nostro modello offre agli utenti un controllo granulare e localizzato visivamente sulla generazione audio. Per supportare questo compito e ulteriori ricerche sul Foley consapevole della segmentazione, proponiamo Segmented Music Solos, un dataset di riferimento di video di esecuzione di strumenti musicali con informazioni di segmentazione. Il nostro metodo dimostra miglioramenti sostanziali rispetto ai metodi attuali all'avanguardia e stabilisce un nuovo standard per la sintesi Foley controllabile e ad alta fedeltà. Codice, campioni e Segmented Music Solos sono disponibili all'indirizzo https://saganet.notion.site.
English
Existing multimodal audio generation models often lack precise user control,
which limits their applicability in professional Foley workflows. In
particular, these models focus on the entire video and do not provide precise
methods for prioritizing a specific object within a scene, generating
unnecessary background sounds, or focusing on the wrong objects. To address
this gap, we introduce the novel task of video object segmentation-aware audio
generation, which explicitly conditions sound synthesis on object-level
segmentation maps. We present SAGANet, a new multimodal generative model that
enables controllable audio generation by leveraging visual segmentation masks
along with video and textual cues. Our model provides users with fine-grained
and visually localized control over audio generation. To support this task and
further research on segmentation-aware Foley, we propose Segmented Music Solos,
a benchmark dataset of musical instrument performance videos with segmentation
information. Our method demonstrates substantial improvements over current
state-of-the-art methods and sets a new standard for controllable,
high-fidelity Foley synthesis. Code, samples, and Segmented Music Solos are
available at https://saganet.notion.site