DialSim: Реальном времени симулятор для оценки долгосрочного понимания диалога разговорных агентов.
DialSim: A Real-Time Simulator for Evaluating Long-Term Dialogue Understanding of Conversational Agents
June 19, 2024
Авторы: Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi
cs.AI
Аннотация
Недавние достижения в области крупных языковых моделей (LLM) значительно улучшили возможности разговорных агентов, делая их применимыми в различных областях (например, образование). Несмотря на прогресс, оценка агентов часто не учитывает сложности разговоров в реальном мире, такие как общение в реальном времени, диалоги с участием нескольких участников и расширенные контекстуальные зависимости. Для устранения этого разрыва мы представляем DialSim, симулятор диалогов в реальном времени. В этом симуляторе агенту назначается роль персонажа из популярных телешоу, требуя от него отвечать на спонтанные вопросы, используя информацию из прошлых диалогов, и различать известную и неизвестную информацию. Основные особенности DialSim включают оценку способности агента отвечать в разумные сроки, обработку долгосрочных диалогов с участием нескольких участников и управление адверсарными ситуациями (например, замена имен персонажей) для проверки зависимости агента от предварительно обученных знаний. Мы использовали этот симулятор для оценки последних разговорных агентов и анализа их ограничений. Наши эксперименты выявляют как сильные, так и слабые стороны этих агентов, предоставляя ценные идеи для будущих улучшений в области разговорного искусственного интеллекта. DialSim доступен по адресу https://github.com/jiho283/Simulator.
English
Recent advancements in Large Language Models (LLMs) have significantly
enhanced the capabilities of conversational agents, making them applicable to
various fields (e.g., education). Despite their progress, the evaluation of the
agents often overlooks the complexities of real-world conversations, such as
real-time interactions, multi-party dialogues, and extended contextual
dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue
simulator. In this simulator, an agent is assigned the role of a character from
popular TV shows, requiring it to respond to spontaneous questions using past
dialogue information and to distinguish between known and unknown information.
Key features of DialSim include evaluating the agent's ability to respond
within a reasonable time limit, handling long-term multi-party dialogues, and
managing adversarial settings (e.g., swap character names) to challenge the
agent's reliance on pre-trained knowledge. We utilized this simulator to
evaluate the latest conversational agents and analyze their limitations. Our
experiments highlight both the strengths and weaknesses of these agents,
providing valuable insights for future improvements in the field of
conversational AI. DialSim is available at
https://github.com/jiho283/Simulator.Summary
AI-Generated Summary