ChatPaper.aiChatPaper

Audio-FLAN: Een Voorlopige Versie

Audio-FLAN: A Preliminary Release

February 23, 2025
Auteurs: Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue
cs.AI

Samenvatting

Recente ontwikkelingen in audio-tokenisatie hebben de integratie van audiocapaciteiten in grote taalmodellen (LLM's) aanzienlijk verbeterd. Echter, audio begrip en generatie worden vaak behandeld als afzonderlijke taken, wat de ontwikkeling van echt verenigde audio-taalmodellen belemmert. Hoewel instructie-afstemming opmerkelijk succes heeft aangetoond in het verbeteren van generalisatie en zero-shot leren over tekst en visie, blijft de toepassing ervan op audio grotendeels onontgonnen. Een belangrijke hindernis is het gebrek aan uitgebreide datasets die audio begrip en generatie verenigen. Om dit aan te pakken, introduceren we Audio-FLAN, een grootschalige instructie-afstemmingsdataset die 80 diverse taken bestrijkt binnen spraak, muziek en geluidsgebieden, met meer dan 100 miljoen voorbeelden. Audio-FLAN legt de basis voor verenigde audio-taalmodellen die naadloos zowel begrip (bijv. transcriptie, begrip) als generatie (bijv. spraak, muziek, geluid) taken kunnen uitvoeren over een breed scala van audio domeinen op een zero-shot manier. De Audio-FLAN dataset is beschikbaar op HuggingFace en GitHub en zal continu worden bijgewerkt.
English
Recent advancements in audio tokenization have significantly enhanced the integration of audio capabilities into large language models (LLMs). However, audio understanding and generation are often treated as distinct tasks, hindering the development of truly unified audio-language models. While instruction tuning has demonstrated remarkable success in improving generalization and zero-shot learning across text and vision, its application to audio remains largely unexplored. A major obstacle is the lack of comprehensive datasets that unify audio understanding and generation. To address this, we introduce Audio-FLAN, a large-scale instruction-tuning dataset covering 80 diverse tasks across speech, music, and sound domains, with over 100 million instances. Audio-FLAN lays the foundation for unified audio-language models that can seamlessly handle both understanding (e.g., transcription, comprehension) and generation (e.g., speech, music, sound) tasks across a wide range of audio domains in a zero-shot manner. The Audio-FLAN dataset is available on HuggingFace and GitHub and will be continuously updated.

Summary

AI-Generated Summary

PDF372February 25, 2025