ChatPaper.aiChatPaper

FusionAudio-1.2M: Verso una descrizione audio fine-grana con fusione contestuale multimodale

FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion

June 1, 2025
Autori: Shunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang
cs.AI

Abstract

La creazione di descrizioni audio di alta qualità e su larga scala è fondamentale per progredire nella comprensione dell'audio, tuttavia i metodi automatizzati attuali spesso generano descrizioni che mancano di dettagli fini e precisione contestuale, principalmente a causa della loro dipendenza da informazioni unimodali limitate o multimodali superficiali. Traendo ispirazione dalla percezione uditiva umana, che integra abilmente segnali cross-modali e svolge un'analisi sofisticata della scena uditiva, introduciamo una nuova pipeline automatizzata in due fasi. Questa pipeline utilizza inizialmente modelli pre-addestrati specializzati per estrarre indizi contestuali diversificati (ad esempio, discorso, musica, suoni generali e informazioni visive da video associati). Successivamente, un modello linguistico di grandi dimensioni (LLM) sintetizza questi input multimodali ricchi per generare descrizioni audio dettagliate e consapevoli del contesto. I contributi chiave di questo lavoro includono: (1) il metodo scalabile proposto per la generazione di descrizioni audio finemente dettagliate; (2) FusionAudio, un nuovo dataset su larga scala che comprende 1,2 milioni di tali descrizioni dettagliate, combinate con 6 milioni di coppie domanda-risposta; e (3) modelli audio potenziati sviluppati utilizzando FusionAudio, in particolare un codificatore audio basato su CLAP con un allineamento audio-testo superiore e una migliore capacità di seguire istruzioni. Questo articolo apre la strada a una comprensione automatizzata più sfumata e accurata di ambienti audio complessi. Codice e dati sono disponibili su https://github.com/satsuki2486441738/FusionAudio.
English
High-quality, large-scale audio captioning is crucial for advancing audio understanding, yet current automated methods often generate captions that lack fine-grained detail and contextual accuracy, primarily due to their reliance on limited unimodal or superficial multimodal information. Drawing inspiration from human auditory perception, which adeptly integrates cross-modal cues and performs sophisticated auditory scene analysis, we introduce a novel two-stage automated pipeline. This pipeline first employs specialized pretrained models to extract diverse contextual cues (e.g., speech, music, general sounds, and visual information from associated video). A large language model (LLM) then synthesizes these rich, multimodal inputs to generate detailed and context-aware audio captions. Key contributions of this work include: (1) the proposed scalable method for fine-grained audio caption generation; (2) FusionAudio, a new large-scale dataset comprising 1.2 million such detailed captions, combined with 6 million QA pairs; and (3) enhanced audio models developed using FusionAudio, specifically a CLAP-based audio encoder with superior audio-text alignment and instruction following. This paper paves the way for more nuanced and accurate automated understanding of complex audio environments. Code and data can be found in https://github.com/satsuki2486441738/FusionAudio.
PDF302June 9, 2025