Audio-FLAN: Eine Vorabveröffentlichung
Audio-FLAN: A Preliminary Release
February 23, 2025
Autoren: Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue
cs.AI
Zusammenfassung
Die jüngsten Fortschritte bei der Audio-Tokenisierung haben die Integration von Audiofähigkeiten in große Sprachmodelle (LLMs) erheblich verbessert. Allerdings werden Audioverständnis und -generierung oft als separate Aufgaben behandelt, was die Entwicklung wirklich vereinheitlichter Audio-Sprachmodelle behindert. Während die Anleitungsoptimierung bemerkenswerte Erfolge bei der Verbesserung der Verallgemeinerung und des Null-Schuss-Lernens in Text und Vision gezeigt hat, ist ihre Anwendung auf Audio weitgehend unerforscht. Ein wesentliches Hindernis ist der Mangel an umfassenden Datensätzen, die Audioverständnis und -generierung vereinen. Um dies zu lösen, stellen wir Audio-FLAN vor, einen groß angelegten Anleitungsoptimierungs-Datensatz, der 80 verschiedene Aufgaben in den Bereichen Sprache, Musik und Klang abdeckt, mit über 100 Millionen Instanzen. Audio-FLAN legt den Grundstein für vereinheitlichte Audio-Sprachmodelle, die sowohl Verständnis (z. B. Transkription, Verständnis) als auch Generierung (z. B. Sprache, Musik, Klang) Aufgaben über ein breites Spektrum von Audio-Domänen nahtlos in einem Null-Schuss-Verfahren bewältigen können. Der Audio-FLAN-Datensatz ist auf HuggingFace und GitHub verfügbar und wird kontinuierlich aktualisiert.
English
Recent advancements in audio tokenization have significantly enhanced the
integration of audio capabilities into large language models (LLMs). However,
audio understanding and generation are often treated as distinct tasks,
hindering the development of truly unified audio-language models. While
instruction tuning has demonstrated remarkable success in improving
generalization and zero-shot learning across text and vision, its application
to audio remains largely unexplored. A major obstacle is the lack of
comprehensive datasets that unify audio understanding and generation. To
address this, we introduce Audio-FLAN, a large-scale instruction-tuning dataset
covering 80 diverse tasks across speech, music, and sound domains, with over
100 million instances. Audio-FLAN lays the foundation for unified
audio-language models that can seamlessly handle both understanding (e.g.,
transcription, comprehension) and generation (e.g., speech, music, sound) tasks
across a wide range of audio domains in a zero-shot manner. The Audio-FLAN
dataset is available on HuggingFace and GitHub and will be continuously
updated.Summary
AI-Generated Summary