Audio-FLAN:初期リリース
Audio-FLAN: A Preliminary Release
February 23, 2025
著者: Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue
cs.AI
要旨
近年のオーディオトークン化技術の進展により、大規模言語モデル(LLM)へのオーディオ機能の統合が大幅に向上しました。しかし、オーディオ理解と生成はしばしば別々のタスクとして扱われ、真に統一されたオーディオ言語モデルの開発を妨げています。命令チューニングは、テキストや視覚分野における汎化性能やゼロショット学習の向上で顕著な成功を収めていますが、オーディオ分野への応用はほとんど未開拓です。その主な障壁は、オーディオ理解と生成を統合した包括的なデータセットの欠如です。この問題に対処するため、我々はAudio-FLANを導入しました。これは、音声、音楽、音響の各領域にわたる80の多様なタスクと1億件以上のインスタンスをカバーする大規模な命令チューニングデータセットです。Audio-FLANは、広範なオーディオ領域において、理解(例:文字起こし、理解)と生成(例:音声、音楽、音響)のタスクをゼロショットでシームレスに処理できる統一オーディオ言語モデルの基盤を築きます。Audio-FLANデータセットはHuggingFaceとGitHubで公開されており、継続的に更新されます。
English
Recent advancements in audio tokenization have significantly enhanced the
integration of audio capabilities into large language models (LLMs). However,
audio understanding and generation are often treated as distinct tasks,
hindering the development of truly unified audio-language models. While
instruction tuning has demonstrated remarkable success in improving
generalization and zero-shot learning across text and vision, its application
to audio remains largely unexplored. A major obstacle is the lack of
comprehensive datasets that unify audio understanding and generation. To
address this, we introduce Audio-FLAN, a large-scale instruction-tuning dataset
covering 80 diverse tasks across speech, music, and sound domains, with over
100 million instances. Audio-FLAN lays the foundation for unified
audio-language models that can seamlessly handle both understanding (e.g.,
transcription, comprehension) and generation (e.g., speech, music, sound) tasks
across a wide range of audio domains in a zero-shot manner. The Audio-FLAN
dataset is available on HuggingFace and GitHub and will be continuously
updated.Summary
AI-Generated Summary