Au-delà du jeu tour par tour : permettre des conversations en temps réel avec des modèles duplex

Résumé

Alors que les grands modèles de langage (LLMs) s'intègrent de plus en plus dans la vie quotidienne, la demande d'interactions en temps réel qui imitent les conversations humaines ne cesse de croître. Les systèmes de chat traditionnels basés sur des tours de parole, pilotés par des LLMs, empêchent les utilisateurs d'interagir verbalement avec le système pendant qu'il génère des réponses. Pour surmonter ces limitations, nous adaptons les LLMs existants en modèles duplex afin que ces LLMs puissent écouter les utilisateurs tout en générant des réponses et s'ajuster dynamiquement pour fournir un retour instantané. Plus précisément, nous divisons les requêtes et les réponses des conversations en plusieurs tranches temporelles, puis adoptons une stratégie de codage-décodage par multiplexage temporel (TDM) pour traiter ces tranches de manière pseudo-simultanée. De plus, pour rendre les LLMs suffisamment compétents pour gérer des conversations en temps réel, nous construisons un ensemble de données de fine-tuning composé de tranches temporelles alternées de requêtes et de réponses, couvrant également les types de feedback typiques des interactions instantanées. Nos expériences montrent que bien que les requêtes et les réponses des conversations soient segmentées en tranches incomplètes pour le traitement, les LLMs peuvent préserver leurs performances originales sur des benchmarks standards avec quelques étapes de fine-tuning sur notre ensemble de données. Les évaluations automatiques et humaines indiquent que les modèles duplex rendent les interactions utilisateur-IA plus naturelles et humaines, et améliorent considérablement la satisfaction des utilisateurs par rapport aux LLMs classiques. Notre modèle duplex et l'ensemble de données seront rendus publics.

English

As large language models (LLMs) increasingly permeate daily lives, there is a growing demand for real-time interactions that mirror human conversations. Traditional turn-based chat systems driven by LLMs prevent users from verbally interacting with the system while it is generating responses. To overcome these limitations, we adapt existing LLMs to duplex models so that these LLMs can listen for users while generating output and dynamically adjust themselves to provide users with instant feedback. % such as in response to interruptions. Specifically, we divide the queries and responses of conversations into several time slices and then adopt a time-division-multiplexing (TDM) encoding-decoding strategy to pseudo-simultaneously process these slices. Furthermore, to make LLMs proficient enough to handle real-time conversations, we build a fine-tuning dataset consisting of alternating time slices of queries and responses as well as covering typical feedback types in instantaneous interactions. Our experiments show that although the queries and responses of conversations are segmented into incomplete slices for processing, LLMs can preserve their original performance on standard benchmarks with a few fine-tuning steps on our dataset. Automatic and human evaluation indicate that duplex models make user-AI interactions more natural and human-like, and greatly improve user satisfaction compared to vanilla LLMs. Our duplex model and dataset will be released.

Au-delà du jeu tour par tour : permettre des conversations en temps réel avec des modèles duplex

Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models

Résumé

Summary

Support

Support