Sonoriser cet objet : Génération interactive d'audio à partir d'images avec prise en compte des objets
Sounding that Object: Interactive Object-Aware Image to Audio Generation
June 4, 2025
Auteurs: Tingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang
cs.AI
Résumé
La génération de sons précis pour des scènes audio-visuelles complexes est un défi,
particulièrement en présence de multiples objets et sources sonores. Dans cet article,
nous proposons un modèle de {\em génération audio interactive centrée sur les objets}
qui ancre la génération sonore dans les objets visuels sélectionnés par l'utilisateur
au sein d'images. Notre méthode intègre un apprentissage centré sur les objets dans un
modèle de diffusion latente conditionnelle, qui apprend à associer des régions de l'image
avec leurs sons correspondants grâce à un mécanisme d'attention multi-modale. Au moment
du test, notre modèle utilise la segmentation d'image pour permettre aux utilisateurs
de générer des sons de manière interactive au niveau de l'{\em objet}. Nous validons
théoriquement que notre mécanisme d'attention approxime fonctionnellement les masques
de segmentation au moment du test, garantissant que l'audio généré est aligné avec les
objets sélectionnés. Les évaluations quantitatives et qualitatives montrent que notre
modèle surpasse les approches de référence, obtenant un meilleur alignement entre les
objets et leurs sons associés. Page du projet :
https://tinglok.netlify.app/files/avobject/
English
Generating accurate sounds for complex audio-visual scenes is challenging,
especially in the presence of multiple objects and sound sources. In this
paper, we propose an {\em interactive object-aware audio generation} model that
grounds sound generation in user-selected visual objects within images. Our
method integrates object-centric learning into a conditional latent diffusion
model, which learns to associate image regions with their corresponding sounds
through multi-modal attention. At test time, our model employs image
segmentation to allow users to interactively generate sounds at the {\em
object} level. We theoretically validate that our attention mechanism
functionally approximates test-time segmentation masks, ensuring the generated
audio aligns with selected objects. Quantitative and qualitative evaluations
show that our model outperforms baselines, achieving better alignment between
objects and their associated sounds. Project page:
https://tinglok.netlify.app/files/avobject/