ChatPaper.aiChatPaper

Het Object Doen Klinken: Interactieve Objectbewuste Beeld-naar-Audio Generatie

Sounding that Object: Interactive Object-Aware Image to Audio Generation

June 4, 2025
Auteurs: Tingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang
cs.AI

Samenvatting

Het genereren van nauwkeurige geluiden voor complexe audio-visuele scènes is uitdagend, vooral in aanwezigheid van meerdere objecten en geluidsbronnen. In dit artikel stellen we een {\em interactief objectbewust audiogeneratiemodel} voor dat geluidsgeneratie verankert in door de gebruiker geselecteerde visuele objecten binnen afbeeldingen. Onze methode integreert objectgerichte learning in een conditioneel latent diffusiemodel, dat leert om beeldregio's te associëren met hun corresponderende geluiden via multi-modale aandacht. Tijdens de testfase maakt ons model gebruik van beeldsegmentatie om gebruikers in staat te stellen interactief geluiden te genereren op het {\em object} niveau. We valideren theoretisch dat ons aandachtmechanisme functioneel testtijdsegmentatiemaskers benadert, waardoor gegarandeerd wordt dat het gegenereerde audio overeenkomt met geselecteerde objecten. Kwantitatieve en kwalitatieve evaluaties tonen aan dat ons model de baseline-methoden overtreft, met een betere afstemming tussen objecten en hun geassocieerde geluiden. Projectpagina: https://tinglok.netlify.app/files/avobject/
English
Generating accurate sounds for complex audio-visual scenes is challenging, especially in the presence of multiple objects and sound sources. In this paper, we propose an {\em interactive object-aware audio generation} model that grounds sound generation in user-selected visual objects within images. Our method integrates object-centric learning into a conditional latent diffusion model, which learns to associate image regions with their corresponding sounds through multi-modal attention. At test time, our model employs image segmentation to allow users to interactively generate sounds at the {\em object} level. We theoretically validate that our attention mechanism functionally approximates test-time segmentation masks, ensuring the generated audio aligns with selected objects. Quantitative and qualitative evaluations show that our model outperforms baselines, achieving better alignment between objects and their associated sounds. Project page: https://tinglok.netlify.app/files/avobject/
PDF12June 5, 2025