ChatPaper.aiChatPaper

Ichigo: Assistente Vocale in Tempo Reale a Fusione Anticipata Multimodale

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

October 20, 2024
Autori: Alan Dao, Dinh Bach Vu, Huy Hoang Ha
cs.AI

Abstract

I Large Language Models (LLM) hanno rivoluzionato l'elaborazione del linguaggio naturale, ma la loro applicazione ai compiti basati sul linguaggio parlato rimane sfidante a causa delle complessità dell'integrazione delle modalità audio e testo. Questo articolo introduce Ichigo, un modello misto-modale che elabora in modo fluido sequenze intercalate di discorsi e testi. Utilizzando un approccio di fusione anticipata tokenizzato, Ichigo quantizza il discorso in token discreti e utilizza un'architettura uniforme basata su trasformatori per entrambe le modalità, discorso e testo. Questo metodo consente un ragionamento e una generazione congiunti tra le modalità senza la necessità di adattatori separati. Presentiamo una metodologia di addestramento completa, compresa la preformazione su set di dati multilingue per il riconoscimento del discorso e il raffinamento su un set di istruzioni curato. Ichigo dimostra prestazioni all'avanguardia sui benchmark di domande e risposte sul discorso, superando i modelli di linguaggio del discorso open-source esistenti e ottenendo risultati comparabili ai sistemi a cascata. In particolare, Ichigo presenta una latenza di soli 111 ms per la generazione del primo token, significativamente inferiore rispetto ai modelli attuali. Il nostro approccio non solo fa progredire il campo dell'IA multimodale, ma fornisce anche un quadro per consentire a team di ricerca più piccoli di contribuire in modo efficace ai modelli di linguaggio del discorso open-source.
English
Large Language Models (LLMs) have revolutionized natural language processing, but their application to speech-based tasks remains challenging due to the complexities of integrating audio and text modalities. This paper introduces Ichigo, a mixed-modal model that seamlessly processes interleaved sequences of speech and text. Utilizing a tokenized early-fusion approach, Ichigo quantizes speech into discrete tokens and employs a uniform transformer-based architecture for both speech and text modalities. This method enables joint reasoning and generation across modalities without the need for separate adapters. We present a comprehensive training methodology, including pre-training on multilingual speech recognition datasets and fine-tuning on a curated instruction dataset. Ichigo demonstrates state-of-the-art performance on speech question-answering benchmarks, outperforming existing open-source speech language models and achieving comparable results to cascaded systems. Notably, Ichigo exhibits a latency of just 111 ms to first token generation, significantly lower than current models. Our approach not only advances the field of multimodal AI but also provides a framework for smaller research teams to contribute effectively to open-source speech-language models.

Summary

AI-Generated Summary

PDF115November 16, 2024