LLaMA-Omni: Interazione Vocale Continua con Grandi Modelli LinguisticiLLaMA-Omni: Seamless Speech Interaction with Large Language Models
Modelli come GPT-4o consentono l'interazione in tempo reale con grandi modelli linguistici (LLM) attraverso il linguaggio parlato, migliorando significativamente l'esperienza dell'utente rispetto all'interazione tradizionale basata sul testo. Tuttavia, c'è ancora una mancanza di esplorazione su come costruire modelli di interazione vocale basati su LLM open-source. Per affrontare questo problema, proponiamo LLaMA-Omni, un'architettura di modello innovativa progettata per un'interazione vocale a bassa latenza e di alta qualità con LLM. LLaMA-Omni integra un codificatore vocale preaddestrato, un adattatore vocale, un LLM e un decodificatore vocale in streaming. Elimina la necessità di trascrizione vocale e può generare contemporaneamente risposte in testo e voce direttamente dalle istruzioni vocali con una latenza estremamente bassa. Costruiamo il nostro modello basandoci sul recente modello Llama-3.1-8B-Instruct. Per allineare il modello con scenari di interazione vocale, costruiamo un dataset chiamato InstructS2S-200K, che include 200.000 istruzioni vocali e relative risposte vocali. I risultati sperimentali mostrano che rispetto ai precedenti modelli di linguaggio vocale, LLaMA-Omni fornisce risposte migliori sia per contenuto che per stile, con una latenza di risposta fino a 226 ms. Inoltre, addestrare LLaMA-Omni richiede meno di 3 giorni con soli 4 GPU, aprendo la strada allo sviluppo efficiente di modelli di linguaggio vocale in futuro.