Audio Flamingo : Un nouveau modèle de langage audio doté de capacités d'apprentissage en few-shot et de dialogue
Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities
February 2, 2024
Auteurs: Zhifeng Kong, Arushi Goel, Rohan Badlani, Wei Ping, Rafael Valle, Bryan Catanzaro
cs.AI
Résumé
L'augmentation des grands modèles de langage (LLMs) pour comprendre l'audio — incluant les sons non vocaux et les éléments non verbaux de la parole — est d'une importance cruciale pour diverses applications réelles des LLMs. Dans cet article, nous proposons Audio Flamingo, un nouveau modèle de langage audio doté de 1) fortes capacités de compréhension audio, 2) la capacité de s'adapter rapidement à des tâches inédites via l'apprentissage en contexte et la récupération, et 3) de solides capacités de dialogue multi-tours. Nous introduisons une série de techniques d'entraînement, de conception architecturale et de stratégies de données pour doter notre modèle de ces capacités. Des évaluations approfondies sur diverses tâches de compréhension audio confirment l'efficacité de notre méthode, établissant de nouveaux référentiels de pointe.
English
Augmenting large language models (LLMs) to understand audio -- including
non-speech sounds and non-verbal speech -- is critically important for diverse
real-world applications of LLMs. In this paper, we propose Audio Flamingo, a
novel audio language model with 1) strong audio understanding abilities, 2) the
ability to quickly adapt to unseen tasks via in-context learning and retrieval,
and 3) strong multi-turn dialogue abilities. We introduce a series of training
techniques, architecture design, and data strategies to enhance our model with
these abilities. Extensive evaluations across various audio understanding tasks
confirm the efficacy of our method, setting new state-of-the-art benchmarks.