Oltre il gioco a turni: abilitare conversazioni in tempo reale con modelli Duplex
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models
June 22, 2024
Autori: Xinrong Zhang, Yingfa Chen, Shengding Hu, Xu Han, Zihang Xu, Yuanwei Xu, Weilin Zhao, Maosong Sun, Zhiyuan Liu
cs.AI
Abstract
Man mano che i modelli linguistici di grandi dimensioni (LLM) permeano sempre più la vita quotidiana, cresce la domanda di interazioni in tempo reale che rispecchino le conversazioni umane. I tradizionali sistemi di chat basati su turni guidati da LLM impediscono agli utenti di interagire verbalmente con il sistema mentre questo sta generando risposte. Per superare queste limitazioni, adattiamo gli LLM esistenti a modelli duplex, in modo che questi LLM possano ascoltare gli utenti mentre generano output e adattarsi dinamicamente per fornire feedback immediati. Nello specifico, dividiamo le query e le risposte delle conversazioni in diverse fette temporali e adottiamo una strategia di codifica-decodifica a divisione temporale (TDM) per elaborare pseudo-simultaneamente queste fette. Inoltre, per rendere gli LLM sufficientemente abili nel gestire conversazioni in tempo reale, costruiamo un dataset di fine-tuning composto da fette temporali alternate di query e risposte, nonché da tipici tipi di feedback nelle interazioni istantanee. I nostri esperimenti dimostrano che, sebbene le query e le risposte delle conversazioni siano segmentate in fette incomplete per l'elaborazione, gli LLM possono preservare le loro prestazioni originali sui benchmark standard con pochi passi di fine-tuning sul nostro dataset. Le valutazioni automatiche e umane indicano che i modelli duplex rendono le interazioni utente-IA più naturali e simili a quelle umane, migliorando notevolmente la soddisfazione degli utenti rispetto ai LLM tradizionali. Il nostro modello duplex e il dataset saranno rilasciati.
English
As large language models (LLMs) increasingly permeate daily lives, there is a
growing demand for real-time interactions that mirror human conversations.
Traditional turn-based chat systems driven by LLMs prevent users from verbally
interacting with the system while it is generating responses. To overcome these
limitations, we adapt existing LLMs to duplex models so that these
LLMs can listen for users while generating output and dynamically adjust
themselves to provide users with instant feedback. % such as in response to
interruptions. Specifically, we divide the queries and responses of
conversations into several time slices and then adopt a
time-division-multiplexing (TDM) encoding-decoding strategy to
pseudo-simultaneously process these slices. Furthermore, to make LLMs
proficient enough to handle real-time conversations, we build a fine-tuning
dataset consisting of alternating time slices of queries and responses as well
as covering typical feedback types in instantaneous interactions. Our
experiments show that although the queries and responses of conversations are
segmented into incomplete slices for processing, LLMs can preserve their
original performance on standard benchmarks with a few fine-tuning steps on our
dataset. Automatic and human evaluation indicate that duplex models make
user-AI interactions more natural and human-like, and greatly improve user
satisfaction compared to vanilla LLMs. Our duplex model and dataset will be
released.