その物体を鳴らす:インタラクティブな物体認識画像から音声生成へ
Sounding that Object: Interactive Object-Aware Image to Audio Generation
June 4, 2025
著者: Tingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang
cs.AI
要旨
複雑な視聴覚シーンに対して正確な音を生成することは、特に複数の物体や音源が存在する状況では困難な課題です。本論文では、画像内のユーザーが選択した視覚的物体に基づいて音生成を行う「インタラクティブな物体認識音声生成」モデルを提案します。私たちの手法は、物体中心の学習を条件付き潜在拡散モデルに統合し、マルチモーダルアテンションを通じて画像領域とそれに対応する音を関連付けることを学習します。テスト時には、画像セグメンテーションを利用して、ユーザーが「物体」レベルでインタラクティブに音を生成できるようにします。理論的には、私たちのアテンションメカニズムがテスト時のセグメンテーションマスクを機能的に近似し、生成された音声が選択された物体と整合することを検証します。定量的および定性的な評価により、私たちのモデルがベースラインを上回り、物体とそれに関連する音の間の整合性が向上することが示されています。プロジェクトページ: https://tinglok.netlify.app/files/avobject/
English
Generating accurate sounds for complex audio-visual scenes is challenging,
especially in the presence of multiple objects and sound sources. In this
paper, we propose an {\em interactive object-aware audio generation} model that
grounds sound generation in user-selected visual objects within images. Our
method integrates object-centric learning into a conditional latent diffusion
model, which learns to associate image regions with their corresponding sounds
through multi-modal attention. At test time, our model employs image
segmentation to allow users to interactively generate sounds at the {\em
object} level. We theoretically validate that our attention mechanism
functionally approximates test-time segmentation masks, ensuring the generated
audio aligns with selected objects. Quantitative and qualitative evaluations
show that our model outperforms baselines, achieving better alignment between
objects and their associated sounds. Project page:
https://tinglok.netlify.app/files/avobject/