Além do Jogo por Turnos: Possibilitando Conversas em Tempo Real com Modelos Duplex

Resumo

À medida que os grandes modelos de linguagem (LLMs) permeiam cada vez mais a vida diária, há uma crescente demanda por interações em tempo real que imitem conversas humanas. Sistemas de chat tradicionais baseados em turnos e impulsionados por LLMs impedem os usuários de interagir verbalmente com o sistema enquanto ele gera respostas. Para superar essas limitações, adaptamos os LLMs existentes para modelos duplex, de modo que esses LLMs possam ouvir os usuários enquanto geram saídas e se ajustar dinamicamente para fornecer feedback instantâneo aos usuários, como em resposta a interrupções. Especificamente, dividimos as consultas e respostas das conversas em várias fatias de tempo e depois adotamos uma estratégia de codificação-decodificação de multiplexação por divisão de tempo (TDM) para processar pseudo-simultaneamente essas fatias. Além disso, para tornar os LLMs proficientes o suficiente para lidar com conversas em tempo real, construímos um conjunto de dados de ajuste fino consistindo de fatias de tempo alternadas de consultas e respostas, cobrindo também tipos típicos de feedback em interações instantâneas. Nossos experimentos mostram que, embora as consultas e respostas das conversas sejam segmentadas em fatias incompletas para processamento, os LLMs podem preservar seu desempenho original em benchmarks padrão com algumas etapas de ajuste fino em nosso conjunto de dados. Avaliações automátas e humanas indicam que os modelos duplex tornam as interações usuário-AI mais naturais e humanas, e melhoram significativamente a satisfação do usuário em comparação com os LLMs convencionais. Nosso modelo e conjunto de dados duplex serão disponibilizados.

English

As large language models (LLMs) increasingly permeate daily lives, there is a growing demand for real-time interactions that mirror human conversations. Traditional turn-based chat systems driven by LLMs prevent users from verbally interacting with the system while it is generating responses. To overcome these limitations, we adapt existing LLMs to duplex models so that these LLMs can listen for users while generating output and dynamically adjust themselves to provide users with instant feedback. % such as in response to interruptions. Specifically, we divide the queries and responses of conversations into several time slices and then adopt a time-division-multiplexing (TDM) encoding-decoding strategy to pseudo-simultaneously process these slices. Furthermore, to make LLMs proficient enough to handle real-time conversations, we build a fine-tuning dataset consisting of alternating time slices of queries and responses as well as covering typical feedback types in instantaneous interactions. Our experiments show that although the queries and responses of conversations are segmented into incomplete slices for processing, LLMs can preserve their original performance on standard benchmarks with a few fine-tuning steps on our dataset. Automatic and human evaluation indicate that duplex models make user-AI interactions more natural and human-like, and greatly improve user satisfaction compared to vanilla LLMs. Our duplex model and dataset will be released.

Além do Jogo por Turnos: Possibilitando Conversas em Tempo Real com Modelos Duplex

Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models

Resumo

Support