Jenseits des rundenbasierten Spiels: Ermöglichen von Echtzeitgesprächen mit Duplex-Modellen
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models
June 22, 2024
Autoren: Xinrong Zhang, Yingfa Chen, Shengding Hu, Xu Han, Zihang Xu, Yuanwei Xu, Weilin Zhao, Maosong Sun, Zhiyuan Liu
cs.AI
Zusammenfassung
Mit dem zunehmenden Einfluss großer Sprachmodelle (LLMs) auf den Alltag steigt der Bedarf an Echtzeit-Interaktionen, die menschliche Gespräche widerspiegeln. Traditionelle, auf Abwechselung basierende Chat-Systeme, die von LLMs gesteuert werden, verhindern, dass Benutzer verbal mit dem System interagieren, während es Antworten generiert. Um diese Einschränkungen zu überwinden, passen wir bestehende LLMs für Duplex-Modelle an, sodass diese LLMs Benutzer zuhören können, während sie Ausgaben generieren und sich dynamisch anpassen, um Benutzern sofortiges Feedback zu geben, z. B. als Reaktion auf Unterbrechungen. Konkret unterteilen wir die Anfragen und Antworten von Gesprächen in mehrere Zeitscheiben und übernehmen dann eine Zeitmultiplex-Kodierungs-Decodierungsstrategie, um diese Scheiben pseudo-simultan zu verarbeiten. Darüber hinaus erstellen wir, um LLMs ausreichend leistungsfähig zu machen, um Echtzeit-Gespräche zu bewältigen, ein Feinabstimmungsdatenset, das aus abwechselnden Zeitscheiben von Anfragen und Antworten besteht und typische Feedback-Typen in sofortigen Interaktionen abdeckt. Unsere Experimente zeigen, dass LLMs trotz der Segmentierung von Anfragen und Antworten von Gesprächen in unvollständige Scheiben für die Verarbeitung ihre ursprüngliche Leistung auf Standard-Benchmarks mit einigen Feinabstimmungsschritten auf unserem Datenset beibehalten können. Automatische und menschliche Bewertungen zeigen, dass Duplex-Modelle Benutzer-KI-Interaktionen natürlicher und menschenähnlicher gestalten und im Vergleich zu herkömmlichen LLMs die Benutzerzufriedenheit erheblich steigern. Unser Duplex-Modell und Datenset werden veröffentlicht.
English
As large language models (LLMs) increasingly permeate daily lives, there is a
growing demand for real-time interactions that mirror human conversations.
Traditional turn-based chat systems driven by LLMs prevent users from verbally
interacting with the system while it is generating responses. To overcome these
limitations, we adapt existing LLMs to duplex models so that these
LLMs can listen for users while generating output and dynamically adjust
themselves to provide users with instant feedback. % such as in response to
interruptions. Specifically, we divide the queries and responses of
conversations into several time slices and then adopt a
time-division-multiplexing (TDM) encoding-decoding strategy to
pseudo-simultaneously process these slices. Furthermore, to make LLMs
proficient enough to handle real-time conversations, we build a fine-tuning
dataset consisting of alternating time slices of queries and responses as well
as covering typical feedback types in instantaneous interactions. Our
experiments show that although the queries and responses of conversations are
segmented into incomplete slices for processing, LLMs can preserve their
original performance on standard benchmarks with a few fine-tuning steps on our
dataset. Automatic and human evaluation indicate that duplex models make
user-AI interactions more natural and human-like, and greatly improve user
satisfaction compared to vanilla LLMs. Our duplex model and dataset will be
released.Summary
AI-Generated Summary