LLaMA-Omni: Naadloze spraakinteractie met grote taalmodellenLLaMA-Omni: Seamless Speech Interaction with Large Language Models
Modellen zoals GPT-4o maken real-time interactie mogelijk met grote taalmodellen (LLM's) via spraak, wat de gebruikerservaring aanzienlijk verbetert in vergelijking met traditionele op tekst gebaseerde interactie. Er is echter nog steeds weinig verkenning naar het bouwen van spraakinteractiemodellen op basis van open-source LLM's. Om dit aan te pakken, stellen we LLaMA-Omni voor, een nieuw modelarchitectuur ontworpen voor spraakinteractie met LLM's met lage latentie en hoge kwaliteit. LLaMA-Omni integreert een vooraf getrainde spraakencoder, een spraakadapter, een LLM en een continue spraakdecoder. Het elimineert de noodzaak voor spraaktranscriptie en kan tegelijkertijd tekst en spraakreacties genereren rechtstreeks vanuit spraakinstructies met een extreem lage latentie. We bouwen ons model op basis van het nieuwste Llama-3.1-8B-Instruct-model. Om het model af te stemmen op spraakinteractiescenario's, construeren we een dataset genaamd InstructS2S-200K, die 200K spraakinstructies en bijbehorende spraakreacties bevat. Experimentele resultaten tonen aan dat LLaMA-Omni betere reacties biedt dan eerdere spraak-taalmodellen, zowel qua inhoud als stijl, met een reactielatentie van slechts 226 ms. Bovendien duurt het trainen van LLaMA-Omni minder dan 3 dagen op slechts 4 GPU's, wat de weg effent voor de efficiënte ontwikkeling van spraak-taalmodellen in de toekomst.