ChatPaper.aiChatPaper

Ichigo: Assistente de Voz em Tempo Real de Fusão Antecipada Multimodal

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

October 20, 2024
Autores: Alan Dao, Dinh Bach Vu, Huy Hoang Ha
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram o processamento de linguagem natural, mas sua aplicação em tarefas baseadas em fala ainda é desafiadora devido às complexidades de integrar as modalidades de áudio e texto. Este artigo apresenta o Ichigo, um modelo multimodal que processa de forma integrada sequências entrelaçadas de fala e texto. Utilizando uma abordagem de fusão precoce tokenizada, o Ichigo quantiza a fala em tokens discretos e emprega uma arquitetura uniforme baseada em transformers para ambas as modalidades de fala e texto. Este método permite raciocínio e geração conjunta entre as modalidades sem a necessidade de adaptadores separados. Apresentamos uma metodologia abrangente de treinamento, incluindo pré-treinamento em conjuntos de dados multilíngues de reconhecimento de fala e ajuste fino em um conjunto de dados de instruções selecionado. O Ichigo demonstra desempenho de ponta em benchmarks de perguntas e respostas de fala, superando os modelos de linguagem de fala de código aberto existentes e alcançando resultados comparáveis aos sistemas em cascata. Notavelmente, o Ichigo exibe uma latência de apenas 111 ms para a geração do primeiro token, significativamente menor do que os modelos atuais. Nossa abordagem não apenas avança o campo da IA multimodal, mas também fornece um framework para que equipes de pesquisa menores contribuam de forma eficaz para modelos de linguagem de fala de código aberto.
English
Large Language Models (LLMs) have revolutionized natural language processing, but their application to speech-based tasks remains challenging due to the complexities of integrating audio and text modalities. This paper introduces Ichigo, a mixed-modal model that seamlessly processes interleaved sequences of speech and text. Utilizing a tokenized early-fusion approach, Ichigo quantizes speech into discrete tokens and employs a uniform transformer-based architecture for both speech and text modalities. This method enables joint reasoning and generation across modalities without the need for separate adapters. We present a comprehensive training methodology, including pre-training on multilingual speech recognition datasets and fine-tuning on a curated instruction dataset. Ichigo demonstrates state-of-the-art performance on speech question-answering benchmarks, outperforming existing open-source speech language models and achieving comparable results to cascaded systems. Notably, Ichigo exhibits a latency of just 111 ms to first token generation, significantly lower than current models. Our approach not only advances the field of multimodal AI but also provides a framework for smaller research teams to contribute effectively to open-source speech-language models.

Summary

AI-Generated Summary

PDF115November 16, 2024