ChatPaper.aiChatPaper

Das Objekt erklingen lassen: Interaktive objektbewusste Bild-zu-Audio-Generierung

Sounding that Object: Interactive Object-Aware Image to Audio Generation

June 4, 2025
Autoren: Tingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang
cs.AI

Zusammenfassung

Die Erzeugung präziser Klänge für komplexe audiovisuelle Szenen ist eine Herausforderung, insbesondere bei der Anwesenheit mehrerer Objekte und Klangquellen. In diesem Artikel schlagen wir ein {\em interaktives, objektbewusstes Audio-Generierungsmodell} vor, das die Klangerzeugung auf vom Benutzer ausgewählte visuelle Objekte innerhalb von Bildern abstützt. Unser Ansatz integriert objektzentriertes Lernen in ein bedingtes latentes Diffusionsmodell, das durch multimodale Aufmerksamkeit lernt, Bildregionen mit ihren entsprechenden Klängen zu verknüpfen. Zur Testzeit verwendet unser Modell Bildsegmentierung, um Benutzern die interaktive Erzeugung von Klängen auf der {\em Objektebene} zu ermöglichen. Wir validieren theoretisch, dass unser Aufmerksamkeitsmechanismus funktional den Segmentierungsmasken zur Testzeit entspricht, wodurch sichergestellt wird, dass das erzeugte Audio mit den ausgewählten Objekten übereinstimmt. Quantitative und qualitative Auswertungen zeigen, dass unser Modell die Vergleichsmodelle übertrifft und eine bessere Übereinstimmung zwischen Objekten und ihren zugehörigen Klängen erreicht. Projektseite: https://tinglok.netlify.app/files/avobject/
English
Generating accurate sounds for complex audio-visual scenes is challenging, especially in the presence of multiple objects and sound sources. In this paper, we propose an {\em interactive object-aware audio generation} model that grounds sound generation in user-selected visual objects within images. Our method integrates object-centric learning into a conditional latent diffusion model, which learns to associate image regions with their corresponding sounds through multi-modal attention. At test time, our model employs image segmentation to allow users to interactively generate sounds at the {\em object} level. We theoretically validate that our attention mechanism functionally approximates test-time segmentation masks, ensuring the generated audio aligns with selected objects. Quantitative and qualitative evaluations show that our model outperforms baselines, achieving better alignment between objects and their associated sounds. Project page: https://tinglok.netlify.app/files/avobject/
PDF12June 5, 2025