Audio-FLAN: Una Versión Preliminar
Audio-FLAN: A Preliminary Release
February 23, 2025
Autores: Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue
cs.AI
Resumen
Los recientes avances en tokenización de audio han mejorado significativamente la integración de capacidades de audio en los grandes modelos de lenguaje (LLMs, por sus siglas en inglés). Sin embargo, la comprensión y generación de audio suelen tratarse como tareas separadas, lo que dificulta el desarrollo de modelos verdaderamente unificados de audio y lenguaje. Aunque el ajuste por instrucciones ha demostrado un éxito notable en la mejora de la generalización y el aprendizaje zero-shot en texto y visión, su aplicación al audio sigue siendo en gran medida inexplorada. Un obstáculo importante es la falta de conjuntos de datos integrales que unifiquen la comprensión y generación de audio. Para abordar esto, presentamos Audio-FLAN, un conjunto de datos de ajuste por instrucciones a gran escala que abarca 80 tareas diversas en los dominios de voz, música y sonido, con más de 100 millones de instancias. Audio-FLAN sienta las bases para modelos unificados de audio y lenguaje que pueden manejar de manera fluida tanto tareas de comprensión (por ejemplo, transcripción, interpretación) como de generación (por ejemplo, voz, música, sonido) en una amplia gama de dominios de audio de manera zero-shot. El conjunto de datos Audio-FLAN está disponible en HuggingFace y GitHub y se actualizará continuamente.
English
Recent advancements in audio tokenization have significantly enhanced the
integration of audio capabilities into large language models (LLMs). However,
audio understanding and generation are often treated as distinct tasks,
hindering the development of truly unified audio-language models. While
instruction tuning has demonstrated remarkable success in improving
generalization and zero-shot learning across text and vision, its application
to audio remains largely unexplored. A major obstacle is the lack of
comprehensive datasets that unify audio understanding and generation. To
address this, we introduce Audio-FLAN, a large-scale instruction-tuning dataset
covering 80 diverse tasks across speech, music, and sound domains, with over
100 million instances. Audio-FLAN lays the foundation for unified
audio-language models that can seamlessly handle both understanding (e.g.,
transcription, comprehension) and generation (e.g., speech, music, sound) tasks
across a wide range of audio domains in a zero-shot manner. The Audio-FLAN
dataset is available on HuggingFace and GitHub and will be continuously
updated.Summary
AI-Generated Summary