Além do Jogo por Turnos: Possibilitando Conversas em Tempo Real com Modelos Duplex
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models
June 22, 2024
Autores: Xinrong Zhang, Yingfa Chen, Shengding Hu, Xu Han, Zihang Xu, Yuanwei Xu, Weilin Zhao, Maosong Sun, Zhiyuan Liu
cs.AI
Resumo
À medida que os grandes modelos de linguagem (LLMs) permeiam cada vez mais a vida diária, há uma crescente demanda por interações em tempo real que imitem conversas humanas. Sistemas de chat tradicionais baseados em turnos e impulsionados por LLMs impedem os usuários de interagir verbalmente com o sistema enquanto ele gera respostas. Para superar essas limitações, adaptamos os LLMs existentes para modelos duplex, de modo que esses LLMs possam ouvir os usuários enquanto geram saídas e se ajustar dinamicamente para fornecer feedback instantâneo aos usuários, como em resposta a interrupções. Especificamente, dividimos as consultas e respostas das conversas em várias fatias de tempo e depois adotamos uma estratégia de codificação-decodificação de multiplexação por divisão de tempo (TDM) para processar pseudo-simultaneamente essas fatias. Além disso, para tornar os LLMs proficientes o suficiente para lidar com conversas em tempo real, construímos um conjunto de dados de ajuste fino consistindo de fatias de tempo alternadas de consultas e respostas, cobrindo também tipos típicos de feedback em interações instantâneas. Nossos experimentos mostram que, embora as consultas e respostas das conversas sejam segmentadas em fatias incompletas para processamento, os LLMs podem preservar seu desempenho original em benchmarks padrão com algumas etapas de ajuste fino em nosso conjunto de dados. Avaliações automátas e humanas indicam que os modelos duplex tornam as interações usuário-AI mais naturais e humanas, e melhoram significativamente a satisfação do usuário em comparação com os LLMs convencionais. Nosso modelo e conjunto de dados duplex serão disponibilizados.
English
As large language models (LLMs) increasingly permeate daily lives, there is a
growing demand for real-time interactions that mirror human conversations.
Traditional turn-based chat systems driven by LLMs prevent users from verbally
interacting with the system while it is generating responses. To overcome these
limitations, we adapt existing LLMs to duplex models so that these
LLMs can listen for users while generating output and dynamically adjust
themselves to provide users with instant feedback. % such as in response to
interruptions. Specifically, we divide the queries and responses of
conversations into several time slices and then adopt a
time-division-multiplexing (TDM) encoding-decoding strategy to
pseudo-simultaneously process these slices. Furthermore, to make LLMs
proficient enough to handle real-time conversations, we build a fine-tuning
dataset consisting of alternating time slices of queries and responses as well
as covering typical feedback types in instantaneous interactions. Our
experiments show that although the queries and responses of conversations are
segmented into incomplete slices for processing, LLMs can preserve their
original performance on standard benchmarks with a few fine-tuning steps on our
dataset. Automatic and human evaluation indicate that duplex models make
user-AI interactions more natural and human-like, and greatly improve user
satisfaction compared to vanilla LLMs. Our duplex model and dataset will be
released.