DialSim: Een Real-Time Simulator voor het Evalueren van Langetermijndialoogbegrip van Conversatie-Agenten
DialSim: A Real-Time Simulator for Evaluating Long-Term Dialogue Understanding of Conversational Agents
June 19, 2024
Auteurs: Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi
cs.AI
Samenvatting
Recente vooruitgang in Large Language Models (LLMs) heeft de mogelijkheden van conversatie-agents aanzienlijk verbeterd, waardoor ze toepasbaar zijn in verschillende domeinen (bijvoorbeeld onderwijs). Ondanks deze vooruitgang wordt bij de evaluatie van deze agents vaak voorbijgegaan aan de complexiteit van real-world gesprekken, zoals real-time interacties, gesprekken met meerdere deelnemers en uitgebreide contextuele afhankelijkheden. Om deze kloof te overbruggen, introduceren we DialSim, een real-time dialoogsimulator. In deze simulator krijgt een agent de rol toegewezen van een personage uit populaire tv-series, waarbij het spontaan moet reageren op vragen met behulp van eerdere dialooginformatie en onderscheid moet maken tussen bekende en onbekende informatie. Belangrijke kenmerken van DialSim zijn het evalueren van het vermogen van de agent om binnen een redelijke tijdslimiet te reageren, het omgaan met langdurige gesprekken met meerdere deelnemers en het hanteren van uitdagende situaties (bijvoorbeeld het verwisselen van personagesnamen) om de afhankelijkheid van de agent van vooraf getrainde kennis op de proef te stellen. We hebben deze simulator gebruikt om de nieuwste conversatie-agents te evalueren en hun beperkingen te analyseren. Onze experimenten belichten zowel de sterke als de zwakke punten van deze agents, wat waardevolle inzichten biedt voor toekomstige verbeteringen op het gebied van conversatie-AI. DialSim is beschikbaar op https://github.com/jiho283/Simulator.
English
Recent advancements in Large Language Models (LLMs) have significantly
enhanced the capabilities of conversational agents, making them applicable to
various fields (e.g., education). Despite their progress, the evaluation of the
agents often overlooks the complexities of real-world conversations, such as
real-time interactions, multi-party dialogues, and extended contextual
dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue
simulator. In this simulator, an agent is assigned the role of a character from
popular TV shows, requiring it to respond to spontaneous questions using past
dialogue information and to distinguish between known and unknown information.
Key features of DialSim include evaluating the agent's ability to respond
within a reasonable time limit, handling long-term multi-party dialogues, and
managing adversarial settings (e.g., swap character names) to challenge the
agent's reliance on pre-trained knowledge. We utilized this simulator to
evaluate the latest conversational agents and analyze their limitations. Our
experiments highlight both the strengths and weaknesses of these agents,
providing valuable insights for future improvements in the field of
conversational AI. DialSim is available at
https://github.com/jiho283/Simulator.