Más allá del juego por turnos: Habilitando conversaciones en tiempo real con modelos dúplex
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models
June 22, 2024
Autores: Xinrong Zhang, Yingfa Chen, Shengding Hu, Xu Han, Zihang Xu, Yuanwei Xu, Weilin Zhao, Maosong Sun, Zhiyuan Liu
cs.AI
Resumen
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se integran cada vez más en la vida cotidiana, existe una creciente demanda de interacciones en tiempo real que imiten las conversaciones humanas. Los sistemas de chat tradicionales basados en turnos, impulsados por LLMs, impiden que los usuarios interactúen verbalmente con el sistema mientras este genera respuestas. Para superar estas limitaciones, adaptamos los LLMs existentes a modelos dúplex, permitiendo que estos LLMs escuchen a los usuarios mientras generan salidas y se ajusten dinámicamente para proporcionar retroalimentación instantánea. Específicamente, dividimos las consultas y respuestas de las conversaciones en varios segmentos temporales y luego adoptamos una estrategia de codificación-decodificación por división de tiempo (TDM, por sus siglas en inglés) para procesar estos segmentos de manera pseudo-simultánea. Además, para que los LLMs sean lo suficientemente competentes para manejar conversaciones en tiempo real, construimos un conjunto de datos de ajuste fino que consiste en segmentos temporales alternos de consultas y respuestas, así como en la cobertura de tipos típicos de retroalimentación en interacciones instantáneas. Nuestros experimentos muestran que, aunque las consultas y respuestas de las conversaciones se segmentan en porciones incompletas para su procesamiento, los LLMs pueden preservar su rendimiento original en puntos de referencia estándar con unos pocos pasos de ajuste fino en nuestro conjunto de datos. Las evaluaciones automáticas y humanas indican que los modelos dúplex hacen que las interacciones usuario-IA sean más naturales y similares a las humanas, y mejoran significativamente la satisfacción del usuario en comparación con los LLMs convencionales. Nuestro modelo dúplex y el conjunto de datos serán publicados.
English
As large language models (LLMs) increasingly permeate daily lives, there is a
growing demand for real-time interactions that mirror human conversations.
Traditional turn-based chat systems driven by LLMs prevent users from verbally
interacting with the system while it is generating responses. To overcome these
limitations, we adapt existing LLMs to duplex models so that these
LLMs can listen for users while generating output and dynamically adjust
themselves to provide users with instant feedback. % such as in response to
interruptions. Specifically, we divide the queries and responses of
conversations into several time slices and then adopt a
time-division-multiplexing (TDM) encoding-decoding strategy to
pseudo-simultaneously process these slices. Furthermore, to make LLMs
proficient enough to handle real-time conversations, we build a fine-tuning
dataset consisting of alternating time slices of queries and responses as well
as covering typical feedback types in instantaneous interactions. Our
experiments show that although the queries and responses of conversations are
segmented into incomplete slices for processing, LLMs can preserve their
original performance on standard benchmarks with a few fine-tuning steps on our
dataset. Automatic and human evaluation indicate that duplex models make
user-AI interactions more natural and human-like, and greatly improve user
satisfaction compared to vanilla LLMs. Our duplex model and dataset will be
released.Summary
AI-Generated Summary