FusionAudio-1.2M: К детализированному описанию аудио с использованием мультимодального контекстуального слияния
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion
June 1, 2025
Авторы: Shunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang
cs.AI
Аннотация
Высококачественное и масштабируемое создание аудиоописаний имеет решающее значение для продвижения понимания аудио, однако современные автоматизированные методы часто генерируют описания, которым не хватает детализации и контекстуальной точности, в основном из-за их зависимости от ограниченной унимодальной или поверхностной мультимодальной информации. Вдохновляясь человеческим слуховым восприятием, которое умело интегрирует кросс-модальные сигналы и выполняет сложный анализ звуковой сцены, мы представляем новый двухэтапный автоматизированный подход. Этот подход сначала использует специализированные предобученные модели для извлечения разнообразных контекстуальных сигналов (например, речи, музыки, общих звуков и визуальной информации из связанного видео). Затем крупная языковая модель (LLM) синтезирует эти богатые мультимодальные входные данные для создания детализированных и контекстно-осознанных аудиоописаний. Ключевые вклады этой работы включают: (1) предложенный масштабируемый метод для генерации детализированных аудиоописаний; (2) FusionAudio, новый крупномасштабный набор данных, содержащий 1,2 миллиона таких детализированных описаний, объединенных с 6 миллионами пар вопросов и ответов; и (3) улучшенные аудиомодели, разработанные с использованием FusionAudio, в частности аудиоэнкодер на основе CLAP с превосходным выравниванием аудио и текста и следованием инструкциям. Эта работа прокладывает путь к более тонкому и точному автоматизированному пониманию сложных аудиосред. Код и данные доступны по адресу https://github.com/satsuki2486441738/FusionAudio.
English
High-quality, large-scale audio captioning is crucial for advancing audio
understanding, yet current automated methods often generate captions that lack
fine-grained detail and contextual accuracy, primarily due to their reliance on
limited unimodal or superficial multimodal information. Drawing inspiration
from human auditory perception, which adeptly integrates cross-modal cues and
performs sophisticated auditory scene analysis, we introduce a novel two-stage
automated pipeline. This pipeline first employs specialized pretrained models
to extract diverse contextual cues (e.g., speech, music, general sounds, and
visual information from associated video). A large language model (LLM) then
synthesizes these rich, multimodal inputs to generate detailed and
context-aware audio captions. Key contributions of this work include: (1) the
proposed scalable method for fine-grained audio caption generation; (2)
FusionAudio, a new large-scale dataset comprising 1.2 million such detailed
captions, combined with 6 million QA pairs; and (3) enhanced audio models
developed using FusionAudio, specifically a CLAP-based audio encoder with
superior audio-text alignment and instruction following. This paper paves the
way for more nuanced and accurate automated understanding of complex audio
environments. Code and data can be found in
https://github.com/satsuki2486441738/FusionAudio.