Ичиго: Многофункциональный реальном времени голосовой ассистент с ранним объединением.
Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant
October 20, 2024
Авторы: Alan Dao, Dinh Bach Vu, Huy Hoang Ha
cs.AI
Аннотация
Большие языковые модели (LLM) революционизировали обработку естественного языка, однако их применение к задачам на основе речи остается сложным из-за сложностей интеграции аудио и текстовых модальностей. В данной статье представлена Ichigo - смешанная модель, которая безупречно обрабатывает чередующиеся последовательности речи и текста. Используя токенизированный подход раннего слияния, Ichigo квантует речь в дискретные токены и применяет единообразную архитектуру на основе трансформера как для речевой, так и для текстовой модальностей. Этот метод позволяет совместное рассуждение и генерацию между модальностями без необходимости в отдельных адаптерах. Мы представляем всестороннюю методологию обучения, включая предварительное обучение на многоязычных наборах данных по распознаванию речи и донастройку на отобранном инструкционном наборе данных. Ichigo демонстрирует передовую производительность на бенчмарках вопросно-ответных систем на основе речи, превосходя существующие открытые речевые языковые модели и достигая сравнимых результатов с каскадными системами. Особенно стоит отметить, что Ichigo обладает задержкой всего 111 мс до генерации первого токена, значительно меньшей, чем у текущих моделей. Наш подход не только продвигает область мультимодального искусственного интеллекта, но также предоставляет рамочное решение для более маленьких исследовательских групп, чтобы эффективно вносить свой вклад в открытые речевые языковые модели.
English
Large Language Models (LLMs) have revolutionized natural language processing,
but their application to speech-based tasks remains challenging due to the
complexities of integrating audio and text modalities. This paper introduces
Ichigo, a mixed-modal model that seamlessly processes interleaved sequences of
speech and text. Utilizing a tokenized early-fusion approach, Ichigo quantizes
speech into discrete tokens and employs a uniform transformer-based
architecture for both speech and text modalities. This method enables joint
reasoning and generation across modalities without the need for separate
adapters. We present a comprehensive training methodology, including
pre-training on multilingual speech recognition datasets and fine-tuning on a
curated instruction dataset. Ichigo demonstrates state-of-the-art performance
on speech question-answering benchmarks, outperforming existing open-source
speech language models and achieving comparable results to cascaded systems.
Notably, Ichigo exhibits a latency of just 111 ms to first token generation,
significantly lower than current models. Our approach not only advances the
field of multimodal AI but also provides a framework for smaller research teams
to contribute effectively to open-source speech-language models.Summary
AI-Generated Summary