Ichigo: Asistente de Voz en Tiempo Real de Fusión Temprana de Modalidades Mixtas
Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant
October 20, 2024
Autores: Alan Dao, Dinh Bach Vu, Huy Hoang Ha
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs) han revolucionado el procesamiento del lenguaje natural, pero su aplicación a tareas basadas en el habla sigue siendo desafiante debido a las complejidades de integrar las modalidades de audio y texto. Este documento presenta Ichigo, un modelo multimodal que procesa de manera fluida secuencias entrelazadas de habla y texto. Utilizando un enfoque de fusión temprana tokenizado, Ichigo cuantiza el habla en tokens discretos y emplea una arquitectura uniforme basada en transformadores para ambas modalidades, habla y texto. Este método permite razonamiento y generación conjuntos entre modalidades sin necesidad de adaptadores separados. Presentamos una metodología de entrenamiento integral, que incluye pre-entrenamiento en conjuntos de datos multilingües de reconocimiento de habla y ajuste fino en un conjunto de datos de instrucciones seleccionado. Ichigo demuestra un rendimiento de vanguardia en bancos de pruebas de preguntas y respuestas de habla, superando a los modelos de lenguaje de habla de código abierto existentes y logrando resultados comparables a sistemas en cascada. Es destacable que Ichigo presenta una latencia de tan solo 111 ms para la generación del primer token, significativamente menor que los modelos actuales. Nuestro enfoque no solo avanza en el campo de la IA multimodal, sino que también proporciona un marco para que equipos de investigación más pequeños contribuyan de manera efectiva a modelos de lenguaje de habla de código abierto.
English
Large Language Models (LLMs) have revolutionized natural language processing,
but their application to speech-based tasks remains challenging due to the
complexities of integrating audio and text modalities. This paper introduces
Ichigo, a mixed-modal model that seamlessly processes interleaved sequences of
speech and text. Utilizing a tokenized early-fusion approach, Ichigo quantizes
speech into discrete tokens and employs a uniform transformer-based
architecture for both speech and text modalities. This method enables joint
reasoning and generation across modalities without the need for separate
adapters. We present a comprehensive training methodology, including
pre-training on multilingual speech recognition datasets and fine-tuning on a
curated instruction dataset. Ichigo demonstrates state-of-the-art performance
on speech question-answering benchmarks, outperforming existing open-source
speech language models and achieving comparable results to cascaded systems.
Notably, Ichigo exhibits a latency of just 111 ms to first token generation,
significantly lower than current models. Our approach not only advances the
field of multimodal AI but also provides a framework for smaller research teams
to contribute effectively to open-source speech-language models.Summary
AI-Generated Summary