ChatPaper.aiChatPaper

Generazione Audio da Immagine con Consapevolezza dell'Oggetto: Un Approccio Interattivo

Sounding that Object: Interactive Object-Aware Image to Audio Generation

June 4, 2025
Autori: Tingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang
cs.AI

Abstract

Generare suoni accurati per scene audiovisive complesse è una sfida, specialmente in presenza di più oggetti e sorgenti sonore. In questo articolo, proponiamo un modello di {\em generazione audio interattiva basata sugli oggetti} che ancorala generazione del suono agli oggetti visivi selezionati dall'utente all'interno delle immagini. Il nostro metodo integra l'apprendimento centrato sugli oggetti in un modello di diffusione latente condizionale, che impara ad associare le regioni dell'immagine ai suoni corrispondenti attraverso un'attenzione multimodale. Al momento del test, il nostro modello utilizza la segmentazione delle immagini per consentire agli utenti di generare suoni in modo interattivo a livello di {\em oggetto}. Validiamo teoricamente che il nostro meccanismo di attenzione approssima funzionalmente le maschere di segmentazione al momento del test, garantendo che l'audio generato sia allineato con gli oggetti selezionati. Valutazioni quantitative e qualitative dimostrano che il nostro modello supera i baseline, ottenendo un migliore allineamento tra gli oggetti e i suoni associati. Pagina del progetto: https://tinglok.netlify.app/files/avobject/
English
Generating accurate sounds for complex audio-visual scenes is challenging, especially in the presence of multiple objects and sound sources. In this paper, we propose an {\em interactive object-aware audio generation} model that grounds sound generation in user-selected visual objects within images. Our method integrates object-centric learning into a conditional latent diffusion model, which learns to associate image regions with their corresponding sounds through multi-modal attention. At test time, our model employs image segmentation to allow users to interactively generate sounds at the {\em object} level. We theoretically validate that our attention mechanism functionally approximates test-time segmentation masks, ensuring the generated audio aligns with selected objects. Quantitative and qualitative evaluations show that our model outperforms baselines, achieving better alignment between objects and their associated sounds. Project page: https://tinglok.netlify.app/files/avobject/
PDF12June 5, 2025