Voorbij het beurtgebaseerde spel: Real-time gesprekken mogelijk maken met Duplex-modellen
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models
June 22, 2024
Auteurs: Xinrong Zhang, Yingfa Chen, Shengding Hu, Xu Han, Zihang Xu, Yuanwei Xu, Weilin Zhao, Maosong Sun, Zhiyuan Liu
cs.AI
Samenvatting
Naarmate grote taalmodelen (LLM's) steeds meer doordringen in het dagelijks leven, is er een groeiende vraag naar real-time interacties die menselijke gesprekken weerspiegelen. Traditionele beurtgebaseerde chatsystemen die door LLM's worden aangedreven, voorkomen dat gebruikers verbaal met het systeem kunnen interageren terwijl het antwoorden genereert. Om deze beperkingen te overwinnen, passen we bestaande LLM's aan naar duplexmodellen, zodat deze LLM's naar gebruikers kunnen luisteren terwijl ze output genereren en zich dynamisch kunnen aanpassen om gebruikers directe feedback te bieden. % zoals in reactie op onderbrekingen. Specifiek verdelen we de vragen en antwoorden van gesprekken in verschillende tijdssegmenten en passen we een time-division-multiplexing (TDM) encoderings-decoderingstrategie toe om deze segmenten pseudo-gelijktijdig te verwerken. Bovendien bouwen we, om LLM's voldoende bekwaam te maken voor het afhandelen van real-time gesprekken, een fine-tuningdataset die bestaat uit afwisselende tijdssegmenten van vragen en antwoorden, evenals typische feedbacktypes in momentane interacties. Onze experimenten tonen aan dat, hoewel de vragen en antwoorden van gesprekken in onvolledige segmenten worden verdeeld voor verwerking, LLM's hun oorspronkelijke prestaties op standaardbenchmarks kunnen behouden met enkele fine-tuningstappen op onze dataset. Automatische en menselijke evaluatie geven aan dat duplexmodellen gebruikers-AI-interacties natuurlijker en menselijker maken en de gebruikers tevredenheid aanzienlijk verbeteren in vergelijking met standaard LLM's. Ons duplexmodel en de dataset zullen worden vrijgegeven.
English
As large language models (LLMs) increasingly permeate daily lives, there is a
growing demand for real-time interactions that mirror human conversations.
Traditional turn-based chat systems driven by LLMs prevent users from verbally
interacting with the system while it is generating responses. To overcome these
limitations, we adapt existing LLMs to duplex models so that these
LLMs can listen for users while generating output and dynamically adjust
themselves to provide users with instant feedback. % such as in response to
interruptions. Specifically, we divide the queries and responses of
conversations into several time slices and then adopt a
time-division-multiplexing (TDM) encoding-decoding strategy to
pseudo-simultaneously process these slices. Furthermore, to make LLMs
proficient enough to handle real-time conversations, we build a fine-tuning
dataset consisting of alternating time slices of queries and responses as well
as covering typical feedback types in instantaneous interactions. Our
experiments show that although the queries and responses of conversations are
segmented into incomplete slices for processing, LLMs can preserve their
original performance on standard benchmarks with a few fine-tuning steps on our
dataset. Automatic and human evaluation indicate that duplex models make
user-AI interactions more natural and human-like, and greatly improve user
satisfaction compared to vanilla LLMs. Our duplex model and dataset will be
released.