Audio Flamingo: Een Innovatief Audiotaalmodel met Few-Shot Learning en Dialoogvaardigheden
Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities
February 2, 2024
Auteurs: Zhifeng Kong, Arushi Goel, Rohan Badlani, Wei Ping, Rafael Valle, Bryan Catanzaro
cs.AI
Samenvatting
Het uitbreiden van grote taalmodellen (LLMs) om audio te begrijpen — inclusief niet-spraakgeluiden en non-verbale spraak — is van cruciaal belang voor diverse real-world toepassingen van LLMs. In dit artikel stellen we Audio Flamingo voor, een nieuw audiotalenmodel met 1) sterke audio-begripvaardigheden, 2) het vermogen om zich snel aan te passen aan onbekende taken via in-context leren en retrieval, en 3) sterke multi-turn dialoogvaardigheden. We introduceren een reeks trainingstechnieken, architectuurontwerp en datastrategieën om ons model met deze vaardigheden te versterken. Uitgebreide evaluaties over verschillende audio-begriptaken bevestigen de effectiviteit van onze methode, waarbij nieuwe state-of-the-art benchmarks worden gevestigd.
English
Augmenting large language models (LLMs) to understand audio -- including
non-speech sounds and non-verbal speech -- is critically important for diverse
real-world applications of LLMs. In this paper, we propose Audio Flamingo, a
novel audio language model with 1) strong audio understanding abilities, 2) the
ability to quickly adapt to unseen tasks via in-context learning and retrieval,
and 3) strong multi-turn dialogue abilities. We introduce a series of training
techniques, architecture design, and data strategies to enhance our model with
these abilities. Extensive evaluations across various audio understanding tasks
confirm the efficacy of our method, setting new state-of-the-art benchmarks.