ChatPaper.aiChatPaper

Modelo de Linguagem Pode Ouvir Enquanto Fala

Language Model Can Listen While Speaking

August 5, 2024
Autores: Ziyang Ma, Yakun Song, Chenpeng Du, Jian Cong, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen
cs.AI

Resumo

O diálogo serve como a forma mais natural de interação humano-computador (HCI). Avanços recentes em modelos de linguagem de fala (SLM) têm aprimorado significativamente a IA conversacional baseada em fala. No entanto, esses modelos são limitados a conversas baseadas em turnos, sem a capacidade de interagir com humanos em cenários de fala em tempo real, por exemplo, sendo interrompidos quando o conteúdo gerado não é satisfatório. Para lidar com essas limitações, exploramos a modelagem de duplex completo (FDM) em modelos de linguagem de fala interativos (iSLM), focando em aprimorar a interação em tempo real e, mais explicitamente, explorando a habilidade quintessencial de interrupção. Apresentamos um design de modelo inovador, chamado modelo de linguagem de escuta-enquanto-fala (LSLM), um sistema de ponta a ponta equipado com canais de escuta e fala. Nosso LSLM utiliza um decodificador baseado em token apenas para TTS para geração de fala e um codificador de aprendizado auto-supervisionado em streaming (SSL) para entrada de áudio em tempo real. O LSLM funde ambos os canais para geração autoregressiva e detecta a tomada de turnos em tempo real. Três estratégias de fusão - fusão precoce, fusão intermediária e fusão tardia - são exploradas, com a fusão intermediária alcançando um equilíbrio ideal entre geração de fala e interação em tempo real. Duas configurações experimentais, FDM baseado em comando e FDM baseado em voz, demonstram a robustez do LSLM ao ruído e a sensibilidade a instruções diversas. Nossos resultados destacam a capacidade do LSLM de alcançar comunicação duplex com impacto mínimo em sistemas existentes. Este estudo tem como objetivo avançar o desenvolvimento de sistemas de diálogo de fala interativos, aprimorando sua aplicabilidade em contextos do mundo real.
English
Dialogue serves as the most natural manner of human-computer interaction (HCI). Recent advancements in speech language models (SLM) have significantly enhanced speech-based conversational AI. However, these models are limited to turn-based conversation, lacking the ability to interact with humans in real-time spoken scenarios, for example, being interrupted when the generated content is not satisfactory. To address these limitations, we explore full duplex modeling (FDM) in interactive speech language models (iSLM), focusing on enhancing real-time interaction and, more explicitly, exploring the quintessential ability of interruption. We introduce a novel model design, namely listening-while-speaking language model (LSLM), an end-to-end system equipped with both listening and speaking channels. Our LSLM employs a token-based decoder-only TTS for speech generation and a streaming self-supervised learning (SSL) encoder for real-time audio input. LSLM fuses both channels for autoregressive generation and detects turn-taking in real time. Three fusion strategies -- early fusion, middle fusion, and late fusion -- are explored, with middle fusion achieving an optimal balance between speech generation and real-time interaction. Two experimental settings, command-based FDM and voice-based FDM, demonstrate LSLM's robustness to noise and sensitivity to diverse instructions. Our results highlight LSLM's capability to achieve duplex communication with minimal impact on existing systems. This study aims to advance the development of interactive speech dialogue systems, enhancing their applicability in real-world contexts.

Summary

AI-Generated Summary

PDF426November 28, 2024