Audio-FLAN: Um Lançamento Preliminar
Audio-FLAN: A Preliminary Release
February 23, 2025
Autores: Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue
cs.AI
Resumo
Os recentes avanços na tokenização de áudio melhoraram significativamente a integração de capacidades de áudio em grandes modelos de linguagem (LLMs). No entanto, a compreensão e a geração de áudio são frequentemente tratadas como tarefas distintas, o que dificulta o desenvolvimento de modelos verdadeiramente unificados de áudio e linguagem. Embora o ajuste por instrução tenha demonstrado sucesso notável na melhoria da generalização e da aprendizagem zero-shot em texto e visão, sua aplicação ao áudio permanece amplamente inexplorada. Um grande obstáculo é a falta de conjuntos de dados abrangentes que unifiquem a compreensão e a geração de áudio. Para resolver isso, apresentamos o Audio-FLAN, um conjunto de dados de ajuste por instrução em larga escala que abrange 80 tarefas diversas nos domínios de fala, música e som, com mais de 100 milhões de instâncias. O Audio-FLAN estabelece as bases para modelos unificados de áudio e linguagem que podem lidar de maneira fluida tanto com tarefas de compreensão (por exemplo, transcrição, interpretação) quanto de geração (por exemplo, fala, música, som) em uma ampla gama de domínios de áudio de forma zero-shot. O conjunto de dados Audio-FLAN está disponível no HuggingFace e no GitHub e será continuamente atualizado.
English
Recent advancements in audio tokenization have significantly enhanced the
integration of audio capabilities into large language models (LLMs). However,
audio understanding and generation are often treated as distinct tasks,
hindering the development of truly unified audio-language models. While
instruction tuning has demonstrated remarkable success in improving
generalization and zero-shot learning across text and vision, its application
to audio remains largely unexplored. A major obstacle is the lack of
comprehensive datasets that unify audio understanding and generation. To
address this, we introduce Audio-FLAN, a large-scale instruction-tuning dataset
covering 80 diverse tasks across speech, music, and sound domains, with over
100 million instances. Audio-FLAN lays the foundation for unified
audio-language models that can seamlessly handle both understanding (e.g.,
transcription, comprehension) and generation (e.g., speech, music, sound) tasks
across a wide range of audio domains in a zero-shot manner. The Audio-FLAN
dataset is available on HuggingFace and GitHub and will be continuously
updated.Summary
AI-Generated Summary