ChatPaper.aiChatPaper

FusionAudio-1.2M : Vers une description audio fine avec fusion contextuelle multimodale

FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion

June 1, 2025
Auteurs: Shunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang
cs.AI

Résumé

La génération de descriptions audio de haute qualité et à grande échelle est cruciale pour faire progresser la compréhension audio. Cependant, les méthodes automatisées actuelles produisent souvent des descriptions manquant de détails fins et de précision contextuelle, principalement en raison de leur dépendance à des informations unimodales limitées ou à des informations multimodales superficielles. S'inspirant de la perception auditive humaine, qui intègre habilement des indices intermodaux et effectue une analyse sophistiquée des scènes auditives, nous introduisons un nouveau pipeline automatisé en deux étapes. Ce pipeline utilise d'abord des modèles pré-entraînés spécialisés pour extraire divers indices contextuels (par exemple, la parole, la musique, les sons généraux et les informations visuelles provenant de vidéos associées). Un grand modèle de langage (LLM) synthétise ensuite ces entrées multimodales riches pour générer des descriptions audio détaillées et conscientes du contexte. Les contributions clés de ce travail incluent : (1) la méthode proposée pour la génération de descriptions audio fines et évolutives ; (2) FusionAudio, un nouveau jeu de données à grande échelle comprenant 1,2 million de descriptions détaillées, combinées à 6 millions de paires de questions-réponses ; et (3) des modèles audio améliorés développés à l'aide de FusionAudio, notamment un encodeur audio basé sur CLAP avec un alignement audio-texte et un suivi d'instructions supérieurs. Cet article ouvre la voie à une compréhension automatisée plus nuancée et précise des environnements audio complexes. Le code et les données sont disponibles sur https://github.com/satsuki2486441738/FusionAudio.
English
High-quality, large-scale audio captioning is crucial for advancing audio understanding, yet current automated methods often generate captions that lack fine-grained detail and contextual accuracy, primarily due to their reliance on limited unimodal or superficial multimodal information. Drawing inspiration from human auditory perception, which adeptly integrates cross-modal cues and performs sophisticated auditory scene analysis, we introduce a novel two-stage automated pipeline. This pipeline first employs specialized pretrained models to extract diverse contextual cues (e.g., speech, music, general sounds, and visual information from associated video). A large language model (LLM) then synthesizes these rich, multimodal inputs to generate detailed and context-aware audio captions. Key contributions of this work include: (1) the proposed scalable method for fine-grained audio caption generation; (2) FusionAudio, a new large-scale dataset comprising 1.2 million such detailed captions, combined with 6 million QA pairs; and (3) enhanced audio models developed using FusionAudio, specifically a CLAP-based audio encoder with superior audio-text alignment and instruction following. This paper paves the way for more nuanced and accurate automated understanding of complex audio environments. Code and data can be found in https://github.com/satsuki2486441738/FusionAudio.
PDF292June 9, 2025