FusionAudio-1.2M: Auf dem Weg zu feingranularer Audio-Beschreibung mit multimodaler kontextueller Fusion
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion
June 1, 2025
Autoren: Shunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang
cs.AI
Zusammenfassung
Hochwertige, groß angelegte Audio-Beschriftung ist entscheidend für den Fortschritt im Bereich des Audio-Verständnisses. Dennoch erzeugen aktuelle automatisierte Methoden oft Beschriftungen, denen fein abgestufte Details und kontextuelle Genauigkeit fehlen, was hauptsächlich auf ihre Abhängigkeit von begrenzten unimodalen oder oberflächlichen multimodalen Informationen zurückzuführen ist. Inspiriert von der menschlichen auditiven Wahrnehmung, die geschickt cross-modale Hinweise integriert und eine ausgefeilte Analyse der auditiven Szene durchführt, stellen wir eine neuartige zweistufige automatisierte Pipeline vor. Diese Pipeline verwendet zunächst spezialisierte vortrainierte Modelle, um diverse kontextuelle Hinweise zu extrahieren (z. B. Sprache, Musik, allgemeine Geräusche und visuelle Informationen aus zugehörigen Videos). Ein großes Sprachmodell (LLM) synthetisiert dann diese umfangreichen multimodalen Eingaben, um detaillierte und kontextbewusste Audio-Beschriftungen zu generieren. Zu den wesentlichen Beiträgen dieser Arbeit gehören: (1) die vorgeschlagene skalierbare Methode zur Erzeugung fein abgestufter Audio-Beschriftungen; (2) FusionAudio, ein neuer groß angelegter Datensatz, der 1,2 Millionen solcher detaillierten Beschriftungen sowie 6 Millionen Frage-Antwort-Paare umfasst; und (3) verbesserte Audio-Modelle, die mit FusionAudio entwickelt wurden, insbesondere ein CLAP-basierter Audio-Encoder mit überlegener Audio-Text-Ausrichtung und Befolgung von Anweisungen. Diese Arbeit ebnet den Weg für ein nuancierteres und genaueres automatisiertes Verständnis komplexer Audio-Umgebungen. Code und Daten sind unter https://github.com/satsuki2486441738/FusionAudio verfügbar.
English
High-quality, large-scale audio captioning is crucial for advancing audio
understanding, yet current automated methods often generate captions that lack
fine-grained detail and contextual accuracy, primarily due to their reliance on
limited unimodal or superficial multimodal information. Drawing inspiration
from human auditory perception, which adeptly integrates cross-modal cues and
performs sophisticated auditory scene analysis, we introduce a novel two-stage
automated pipeline. This pipeline first employs specialized pretrained models
to extract diverse contextual cues (e.g., speech, music, general sounds, and
visual information from associated video). A large language model (LLM) then
synthesizes these rich, multimodal inputs to generate detailed and
context-aware audio captions. Key contributions of this work include: (1) the
proposed scalable method for fine-grained audio caption generation; (2)
FusionAudio, a new large-scale dataset comprising 1.2 million such detailed
captions, combined with 6 million QA pairs; and (3) enhanced audio models
developed using FusionAudio, specifically a CLAP-based audio encoder with
superior audio-text alignment and instruction following. This paper paves the
way for more nuanced and accurate automated understanding of complex audio
environments. Code and data can be found in
https://github.com/satsuki2486441738/FusionAudio.