За пределами пошаговой игры: обеспечение реального времени бесед с моделями Duplex
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models
June 22, 2024
Авторы: Xinrong Zhang, Yingfa Chen, Shengding Hu, Xu Han, Zihang Xu, Yuanwei Xu, Weilin Zhao, Maosong Sun, Zhiyuan Liu
cs.AI
Аннотация
Поскольку большие языковые модели (LLM) все более проникают в повседневную жизнь, возрастает потребность в интерактивности в реальном времени, которая была бы похожа на человеческие разговоры. Традиционные чат-системы с поочередным обменом сообщениями, управляемые LLM, не позволяют пользователям взаимодействовать устно с системой во время генерации ответов. Для преодоления этих ограничений мы адаптируем существующие LLM к дуплексным моделям, чтобы эти LLM могли слушать пользователей во время генерации вывода и динамически корректировать себя для предоставления пользователям мгновенной обратной связи, например, в ответ на прерывания. Конкретно, мы делим запросы и ответы разговоров на несколько временных срезов, а затем применяем стратегию кодирования-декодирования с временным мультиплексированием (TDM) для псевдо-одновременной обработки этих срезов. Кроме того, чтобы сделать LLM достаточно квалифицированными для обработки разговоров в реальном времени, мы создаем набор данных для донастройки, состоящий из чередующихся временных срезов запросов и ответов, а также охватывающий типичные виды обратной связи в мгновенных взаимодействиях. Наши эксперименты показывают, что хотя запросы и ответы разговоров разбиваются на неполные срезы для обработки, LLM могут сохранить свою исходную производительность на стандартных бенчмарках с несколькими шагами донастройки нашего набора данных. Автоматическая и человеческая оценка показывают, что дуплексные модели делают взаимодействие пользователя с искусственным интеллектом более естественным и похожим на человеческое, и значительно повышают удовлетворенность пользователя по сравнению с обычными LLM. Нашу дуплексную модель и набор данных будут опубликованы.
English
As large language models (LLMs) increasingly permeate daily lives, there is a
growing demand for real-time interactions that mirror human conversations.
Traditional turn-based chat systems driven by LLMs prevent users from verbally
interacting with the system while it is generating responses. To overcome these
limitations, we adapt existing LLMs to duplex models so that these
LLMs can listen for users while generating output and dynamically adjust
themselves to provide users with instant feedback. % such as in response to
interruptions. Specifically, we divide the queries and responses of
conversations into several time slices and then adopt a
time-division-multiplexing (TDM) encoding-decoding strategy to
pseudo-simultaneously process these slices. Furthermore, to make LLMs
proficient enough to handle real-time conversations, we build a fine-tuning
dataset consisting of alternating time slices of queries and responses as well
as covering typical feedback types in instantaneous interactions. Our
experiments show that although the queries and responses of conversations are
segmented into incomplete slices for processing, LLMs can preserve their
original performance on standard benchmarks with a few fine-tuning steps on our
dataset. Automatic and human evaluation indicate that duplex models make
user-AI interactions more natural and human-like, and greatly improve user
satisfaction compared to vanilla LLMs. Our duplex model and dataset will be
released.Summary
AI-Generated Summary