Audio-FLAN: Una Versione Preliminare

Abstract

I recenti progressi nella tokenizzazione audio hanno significativamente migliorato l'integrazione delle capacità audio nei grandi modelli linguistici (LLM). Tuttavia, la comprensione e la generazione audio sono spesso trattate come compiti distinti, ostacolando lo sviluppo di modelli audio-linguistici veramente unificati. Sebbene l'instruction tuning abbia dimostrato un notevole successo nel migliorare la generalizzazione e l'apprendimento zero-shot nel testo e nella visione, la sua applicazione all'audio rimane ampiamente inesplorata. Un ostacolo principale è la mancanza di dataset completi che uniscano la comprensione e la generazione audio. Per affrontare questo problema, introduciamo Audio-FLAN, un dataset su larga scala per l'instruction tuning che copre 80 compiti diversi nei domini del parlato, della musica e del suono, con oltre 100 milioni di istanze. Audio-FLAN getta le basi per modelli audio-linguistici unificati in grado di gestire in modo fluido sia compiti di comprensione (ad esempio, trascrizione, comprensione) che di generazione (ad esempio, parlato, musica, suono) in un'ampia gamma di domini audio in modalità zero-shot. Il dataset Audio-FLAN è disponibile su HuggingFace e GitHub e sarà continuamente aggiornato.

English

Recent advancements in audio tokenization have significantly enhanced the integration of audio capabilities into large language models (LLMs). However, audio understanding and generation are often treated as distinct tasks, hindering the development of truly unified audio-language models. While instruction tuning has demonstrated remarkable success in improving generalization and zero-shot learning across text and vision, its application to audio remains largely unexplored. A major obstacle is the lack of comprehensive datasets that unify audio understanding and generation. To address this, we introduce Audio-FLAN, a large-scale instruction-tuning dataset covering 80 diverse tasks across speech, music, and sound domains, with over 100 million instances. Audio-FLAN lays the foundation for unified audio-language models that can seamlessly handle both understanding (e.g., transcription, comprehension) and generation (e.g., speech, music, sound) tasks across a wide range of audio domains in a zero-shot manner. The Audio-FLAN dataset is available on HuggingFace and GitHub and will be continuously updated.

Audio-FLAN: Una Versione Preliminare

Audio-FLAN: A Preliminary Release

Abstract

Support