Audio-FLAN : Une version préliminaire
Audio-FLAN: A Preliminary Release
February 23, 2025
Auteurs: Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue
cs.AI
Résumé
Les récents progrès en matière de tokenisation audio ont considérablement amélioré l'intégration des capacités audio dans les grands modèles de langage (LLMs). Cependant, la compréhension et la génération audio sont souvent traitées comme des tâches distinctes, ce qui entrave le développement de modèles audio-langage véritablement unifiés. Bien que l'ajustement par instruction ait démontré un succès remarquable dans l'amélioration de la généralisation et de l'apprentissage zero-shot pour le texte et la vision, son application à l'audio reste largement inexplorée. Un obstacle majeur est le manque de jeux de données complets unifiant la compréhension et la génération audio. Pour remédier à cela, nous présentons Audio-FLAN, un jeu de données d'ajustement par instruction à grande échelle couvrant 80 tâches diverses dans les domaines de la parole, de la musique et des sons, avec plus de 100 millions d'instances. Audio-FLAN pose les bases de modèles audio-langage unifiés capables de gérer de manière fluide à la fois les tâches de compréhension (par exemple, transcription, compréhension) et de génération (par exemple, parole, musique, sons) dans un large éventail de domaines audio de manière zero-shot. Le jeu de données Audio-FLAN est disponible sur HuggingFace et GitHub et sera continuellement mis à jour.
English
Recent advancements in audio tokenization have significantly enhanced the
integration of audio capabilities into large language models (LLMs). However,
audio understanding and generation are often treated as distinct tasks,
hindering the development of truly unified audio-language models. While
instruction tuning has demonstrated remarkable success in improving
generalization and zero-shot learning across text and vision, its application
to audio remains largely unexplored. A major obstacle is the lack of
comprehensive datasets that unify audio understanding and generation. To
address this, we introduce Audio-FLAN, a large-scale instruction-tuning dataset
covering 80 diverse tasks across speech, music, and sound domains, with over
100 million instances. Audio-FLAN lays the foundation for unified
audio-language models that can seamlessly handle both understanding (e.g.,
transcription, comprehension) and generation (e.g., speech, music, sound) tasks
across a wide range of audio domains in a zero-shot manner. The Audio-FLAN
dataset is available on HuggingFace and GitHub and will be continuously
updated.Summary
AI-Generated Summary