FusionAudio-1.2M:マルチモーダルコンテキスト融合による細粒度オーディオキャプショニングに向けて
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion
June 1, 2025
著者: Shunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang
cs.AI
要旨
高品質で大規模な音声キャプショニングは、音声理解の進展において極めて重要である。しかし、現在の自動化手法では、限られた単一モーダルまたは表面的なマルチモーダル情報に依存しているため、細かな詳細や文脈的な正確性に欠けるキャプションが生成されることが多い。人間の聴覚知覚からインスピレーションを得て、クロスモーダルな手がかりを巧みに統合し、高度な聴覚シーン分析を行う能力を模倣し、我々は新しい二段階の自動化パイプラインを提案する。このパイプラインでは、まず専門的に事前学習されたモデルを使用して、多様な文脈的手がかり(例えば、音声、音楽、一般的な音、関連するビデオからの視覚情報)を抽出する。その後、大規模言語モデル(LLM)がこれらの豊富なマルチモーダル入力を統合し、詳細で文脈を考慮した音声キャプションを生成する。本研究の主な貢献は以下の通りである:(1)細かな音声キャプション生成のためのスケーラブルな手法の提案;(2)120万件の詳細なキャプションと600万件のQAペアを組み合わせた新たな大規模データセット「FusionAudio」の作成;(3)FusionAudioを使用して開発された強化された音声モデル、特に優れた音声-テキストアラインメントと指示追従能力を持つCLAPベースの音声エンコーダ。本論文は、複雑な音声環境のより微妙で正確な自動理解への道を開くものである。コードとデータはhttps://github.com/satsuki2486441738/FusionAudioで公開されている。
English
High-quality, large-scale audio captioning is crucial for advancing audio
understanding, yet current automated methods often generate captions that lack
fine-grained detail and contextual accuracy, primarily due to their reliance on
limited unimodal or superficial multimodal information. Drawing inspiration
from human auditory perception, which adeptly integrates cross-modal cues and
performs sophisticated auditory scene analysis, we introduce a novel two-stage
automated pipeline. This pipeline first employs specialized pretrained models
to extract diverse contextual cues (e.g., speech, music, general sounds, and
visual information from associated video). A large language model (LLM) then
synthesizes these rich, multimodal inputs to generate detailed and
context-aware audio captions. Key contributions of this work include: (1) the
proposed scalable method for fine-grained audio caption generation; (2)
FusionAudio, a new large-scale dataset comprising 1.2 million such detailed
captions, combined with 6 million QA pairs; and (3) enhanced audio models
developed using FusionAudio, specifically a CLAP-based audio encoder with
superior audio-text alignment and instruction following. This paper paves the
way for more nuanced and accurate automated understanding of complex audio
environments. Code and data can be found in
https://github.com/satsuki2486441738/FusionAudio.