Au-delà du jeu tour par tour : permettre des conversations en temps réel avec des modèles duplex
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models
June 22, 2024
Auteurs: Xinrong Zhang, Yingfa Chen, Shengding Hu, Xu Han, Zihang Xu, Yuanwei Xu, Weilin Zhao, Maosong Sun, Zhiyuan Liu
cs.AI
Résumé
Alors que les grands modèles de langage (LLMs) s'intègrent de plus en plus dans la vie quotidienne, la demande d'interactions en temps réel qui imitent les conversations humaines ne cesse de croître. Les systèmes de chat traditionnels basés sur des tours de parole, pilotés par des LLMs, empêchent les utilisateurs d'interagir verbalement avec le système pendant qu'il génère des réponses. Pour surmonter ces limitations, nous adaptons les LLMs existants en modèles duplex afin que ces LLMs puissent écouter les utilisateurs tout en générant des réponses et s'ajuster dynamiquement pour fournir un retour instantané. Plus précisément, nous divisons les requêtes et les réponses des conversations en plusieurs tranches temporelles, puis adoptons une stratégie de codage-décodage par multiplexage temporel (TDM) pour traiter ces tranches de manière pseudo-simultanée. De plus, pour rendre les LLMs suffisamment compétents pour gérer des conversations en temps réel, nous construisons un ensemble de données de fine-tuning composé de tranches temporelles alternées de requêtes et de réponses, couvrant également les types de feedback typiques des interactions instantanées. Nos expériences montrent que bien que les requêtes et les réponses des conversations soient segmentées en tranches incomplètes pour le traitement, les LLMs peuvent préserver leurs performances originales sur des benchmarks standards avec quelques étapes de fine-tuning sur notre ensemble de données. Les évaluations automatiques et humaines indiquent que les modèles duplex rendent les interactions utilisateur-IA plus naturelles et humaines, et améliorent considérablement la satisfaction des utilisateurs par rapport aux LLMs classiques. Notre modèle duplex et l'ensemble de données seront rendus publics.
English
As large language models (LLMs) increasingly permeate daily lives, there is a
growing demand for real-time interactions that mirror human conversations.
Traditional turn-based chat systems driven by LLMs prevent users from verbally
interacting with the system while it is generating responses. To overcome these
limitations, we adapt existing LLMs to duplex models so that these
LLMs can listen for users while generating output and dynamically adjust
themselves to provide users with instant feedback. % such as in response to
interruptions. Specifically, we divide the queries and responses of
conversations into several time slices and then adopt a
time-division-multiplexing (TDM) encoding-decoding strategy to
pseudo-simultaneously process these slices. Furthermore, to make LLMs
proficient enough to handle real-time conversations, we build a fine-tuning
dataset consisting of alternating time slices of queries and responses as well
as covering typical feedback types in instantaneous interactions. Our
experiments show that although the queries and responses of conversations are
segmented into incomplete slices for processing, LLMs can preserve their
original performance on standard benchmarks with a few fine-tuning steps on our
dataset. Automatic and human evaluation indicate that duplex models make
user-AI interactions more natural and human-like, and greatly improve user
satisfaction compared to vanilla LLMs. Our duplex model and dataset will be
released.Summary
AI-Generated Summary