Sonorizando o Objeto: Geração Interativa de Áudio a partir de Imagens com Consciência de Objeto
Sounding that Object: Interactive Object-Aware Image to Audio Generation
June 4, 2025
Autores: Tingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang
cs.AI
Resumo
Gerar sons precisos para cenas audiovisuais complexas é um desafio, especialmente na presença de múltiplos objetos e fontes sonoras. Neste artigo, propomos um modelo de {\em geração de áudio interativa com consciência de objetos} que fundamenta a geração de sons em objetos visuais selecionados pelo usuário dentro de imagens. Nosso método integra o aprendizado centrado em objetos em um modelo de difusão latente condicional, que aprende a associar regiões da imagem com seus sons correspondentes por meio de atenção multimodal. No momento do teste, nosso modelo emprega segmentação de imagem para permitir que os usuários gerem sons de forma interativa no nível do {\em objeto}. Validamos teoricamente que nosso mecanismo de atenção aproxima funcionalmente as máscaras de segmentação no momento do teste, garantindo que o áudio gerado esteja alinhado com os objetos selecionados. Avaliações quantitativas e qualitativas mostram que nosso modelo supera as abordagens de referência, alcançando um melhor alinhamento entre os objetos e seus sons associados. Página do projeto: https://tinglok.netlify.app/files/avobject/
English
Generating accurate sounds for complex audio-visual scenes is challenging,
especially in the presence of multiple objects and sound sources. In this
paper, we propose an {\em interactive object-aware audio generation} model that
grounds sound generation in user-selected visual objects within images. Our
method integrates object-centric learning into a conditional latent diffusion
model, which learns to associate image regions with their corresponding sounds
through multi-modal attention. At test time, our model employs image
segmentation to allow users to interactively generate sounds at the {\em
object} level. We theoretically validate that our attention mechanism
functionally approximates test-time segmentation masks, ensuring the generated
audio aligns with selected objects. Quantitative and qualitative evaluations
show that our model outperforms baselines, achieving better alignment between
objects and their associated sounds. Project page:
https://tinglok.netlify.app/files/avobject/