ChatPaper.aiChatPaper

Звуковое восприятие объекта: интерактивная генерация аудио на основе изображений с учетом объекта

Sounding that Object: Interactive Object-Aware Image to Audio Generation

June 4, 2025
Авторы: Tingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang
cs.AI

Аннотация

Генерация точных звуков для сложных аудиовизуальных сцен представляет собой сложную задачу, особенно при наличии множества объектов и источников звука. В данной работе мы предлагаем модель {\em интерактивной генерации звука с учетом объектов}, которая основывает генерацию звука на визуальных объектах, выбранных пользователем на изображениях. Наш метод интегрирует объектно-ориентированное обучение в условную модель латентной диффузии, которая учится связывать области изображения с соответствующими звуками через мультимодальное внимание. На этапе тестирования наша модель использует сегментацию изображений, позволяя пользователям интерактивно генерировать звуки на уровне {\em объектов}. Мы теоретически подтверждаем, что наш механизм внимания функционально аппроксимирует маски сегментации на этапе тестирования, обеспечивая соответствие генерируемого звука выбранным объектам. Количественные и качественные оценки показывают, что наша модель превосходит базовые подходы, достигая лучшего соответствия между объектами и связанными с ними звуками. Страница проекта: https://tinglok.netlify.app/files/avobject/
English
Generating accurate sounds for complex audio-visual scenes is challenging, especially in the presence of multiple objects and sound sources. In this paper, we propose an {\em interactive object-aware audio generation} model that grounds sound generation in user-selected visual objects within images. Our method integrates object-centric learning into a conditional latent diffusion model, which learns to associate image regions with their corresponding sounds through multi-modal attention. At test time, our model employs image segmentation to allow users to interactively generate sounds at the {\em object} level. We theoretically validate that our attention mechanism functionally approximates test-time segmentation masks, ensuring the generated audio aligns with selected objects. Quantitative and qualitative evaluations show that our model outperforms baselines, achieving better alignment between objects and their associated sounds. Project page: https://tinglok.netlify.app/files/avobject/
PDF12June 5, 2025