Ichigo: Asistente de Voz en Tiempo Real de Fusión Temprana de Modalidades Mixtas

Resumen

Los Modelos de Lenguaje Grandes (LLMs) han revolucionado el procesamiento del lenguaje natural, pero su aplicación a tareas basadas en el habla sigue siendo desafiante debido a las complejidades de integrar las modalidades de audio y texto. Este documento presenta Ichigo, un modelo multimodal que procesa de manera fluida secuencias entrelazadas de habla y texto. Utilizando un enfoque de fusión temprana tokenizado, Ichigo cuantiza el habla en tokens discretos y emplea una arquitectura uniforme basada en transformadores para ambas modalidades, habla y texto. Este método permite razonamiento y generación conjuntos entre modalidades sin necesidad de adaptadores separados. Presentamos una metodología de entrenamiento integral, que incluye pre-entrenamiento en conjuntos de datos multilingües de reconocimiento de habla y ajuste fino en un conjunto de datos de instrucciones seleccionado. Ichigo demuestra un rendimiento de vanguardia en bancos de pruebas de preguntas y respuestas de habla, superando a los modelos de lenguaje de habla de código abierto existentes y logrando resultados comparables a sistemas en cascada. Es destacable que Ichigo presenta una latencia de tan solo 111 ms para la generación del primer token, significativamente menor que los modelos actuales. Nuestro enfoque no solo avanza en el campo de la IA multimodal, sino que también proporciona un marco para que equipos de investigación más pequeños contribuyan de manera efectiva a modelos de lenguaje de habla de código abierto.

English

Large Language Models (LLMs) have revolutionized natural language processing, but their application to speech-based tasks remains challenging due to the complexities of integrating audio and text modalities. This paper introduces Ichigo, a mixed-modal model that seamlessly processes interleaved sequences of speech and text. Utilizing a tokenized early-fusion approach, Ichigo quantizes speech into discrete tokens and employs a uniform transformer-based architecture for both speech and text modalities. This method enables joint reasoning and generation across modalities without the need for separate adapters. We present a comprehensive training methodology, including pre-training on multilingual speech recognition datasets and fine-tuning on a curated instruction dataset. Ichigo demonstrates state-of-the-art performance on speech question-answering benchmarks, outperforming existing open-source speech language models and achieving comparable results to cascaded systems. Notably, Ichigo exhibits a latency of just 111 ms to first token generation, significantly lower than current models. Our approach not only advances the field of multimodal AI but also provides a framework for smaller research teams to contribute effectively to open-source speech-language models.

Ichigo: Asistente de Voz en Tiempo Real de Fusión Temprana de Modalidades Mixtas

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

Resumen

Support