FusionAudio-1.2M: Rumo à Descrição de Áudio de Alta Granularidade com Fusão Contextual Multimodal
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion
June 1, 2025
Autores: Shunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang
cs.AI
Resumo
A geração de legendas de áudio em larga escala e de alta qualidade é crucial para o avanço da compreensão de áudio, mas os métodos automatizados atuais frequentemente produzem legendas que carecem de detalhes refinados e precisão contextual, principalmente devido à sua dependência de informações unimodais limitadas ou multimodais superficiais. Inspirados pela percepção auditiva humana, que integra habilmente pistas multimodais e realiza uma análise sofisticada de cenas auditivas, introduzimos um novo pipeline automatizado em duas etapas. Esse pipeline primeiro emprega modelos pré-treinados especializados para extrair diversas pistas contextuais (por exemplo, fala, música, sons gerais e informações visuais de vídeos associados). Um modelo de linguagem de grande escala (LLM, na sigla em inglês) então sintetiza essas entradas multimodais ricas para gerar legendas de áudio detalhadas e contextualmente conscientes. As principais contribuições deste trabalho incluem: (1) o método escalável proposto para geração de legendas de áudio refinadas; (2) FusionAudio, um novo conjunto de dados em larga escala composto por 1,2 milhão dessas legendas detalhadas, combinadas com 6 milhões de pares de perguntas e respostas; e (3) modelos de áudio aprimorados desenvolvidos usando o FusionAudio, especificamente um codificador de áudio baseado em CLAP com alinhamento superior entre áudio e texto e capacidade de seguir instruções. Este artigo abre caminho para uma compreensão automatizada mais precisa e matizada de ambientes de áudio complexos. O código e os dados podem ser encontrados em https://github.com/satsuki2486441738/FusionAudio.
English
High-quality, large-scale audio captioning is crucial for advancing audio
understanding, yet current automated methods often generate captions that lack
fine-grained detail and contextual accuracy, primarily due to their reliance on
limited unimodal or superficial multimodal information. Drawing inspiration
from human auditory perception, which adeptly integrates cross-modal cues and
performs sophisticated auditory scene analysis, we introduce a novel two-stage
automated pipeline. This pipeline first employs specialized pretrained models
to extract diverse contextual cues (e.g., speech, music, general sounds, and
visual information from associated video). A large language model (LLM) then
synthesizes these rich, multimodal inputs to generate detailed and
context-aware audio captions. Key contributions of this work include: (1) the
proposed scalable method for fine-grained audio caption generation; (2)
FusionAudio, a new large-scale dataset comprising 1.2 million such detailed
captions, combined with 6 million QA pairs; and (3) enhanced audio models
developed using FusionAudio, specifically a CLAP-based audio encoder with
superior audio-text alignment and instruction following. This paper paves the
way for more nuanced and accurate automated understanding of complex audio
environments. Code and data can be found in
https://github.com/satsuki2486441738/FusionAudio.