ChatPaper.aiChatPaper

Sonificando ese Objeto: Generación Interactiva de Audio a partir de Imágenes con Conciencia del Objeto

Sounding that Object: Interactive Object-Aware Image to Audio Generation

June 4, 2025
Autores: Tingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang
cs.AI

Resumen

Generar sonidos precisos para escenas audiovisuales complejas es un desafío, especialmente en presencia de múltiples objetos y fuentes de sonido. En este artículo, proponemos un modelo de {\em generación de audio interactivo consciente de objetos} que fundamenta la generación de sonido en objetos visuales seleccionados por el usuario dentro de imágenes. Nuestro método integra el aprendizaje centrado en objetos en un modelo de difusión latente condicional, que aprende a asociar regiones de la imagen con sus sonidos correspondientes mediante atención multimodal. Durante la fase de prueba, nuestro modelo emplea segmentación de imágenes para permitir a los usuarios generar sonidos de manera interactiva a nivel de {\em objeto}. Validamos teóricamente que nuestro mecanismo de atención aproxima funcionalmente las máscaras de segmentación en la fase de prueba, asegurando que el audio generado se alinee con los objetos seleccionados. Las evaluaciones cuantitativas y cualitativas muestran que nuestro modelo supera a los baselines, logrando una mejor alineación entre los objetos y sus sonidos asociados. Página del proyecto: https://tinglok.netlify.app/files/avobject/
English
Generating accurate sounds for complex audio-visual scenes is challenging, especially in the presence of multiple objects and sound sources. In this paper, we propose an {\em interactive object-aware audio generation} model that grounds sound generation in user-selected visual objects within images. Our method integrates object-centric learning into a conditional latent diffusion model, which learns to associate image regions with their corresponding sounds through multi-modal attention. At test time, our model employs image segmentation to allow users to interactively generate sounds at the {\em object} level. We theoretically validate that our attention mechanism functionally approximates test-time segmentation masks, ensuring the generated audio aligns with selected objects. Quantitative and qualitative evaluations show that our model outperforms baselines, achieving better alignment between objects and their associated sounds. Project page: https://tinglok.netlify.app/files/avobject/
PDF12June 5, 2025