ChatPaper.aiChatPaper

DialSim : Un simulateur en temps réel pour évaluer la compréhension à long terme des dialogues par les agents conversationnels

DialSim: A Real-Time Simulator for Evaluating Long-Term Dialogue Understanding of Conversational Agents

June 19, 2024
Auteurs: Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi
cs.AI

Résumé

Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont considérablement amélioré les capacités des agents conversationnels, les rendant applicables à divers domaines (par exemple, l'éducation). Malgré ces progrès, l'évaluation de ces agents néglige souvent les complexités des conversations réelles, telles que les interactions en temps réel, les dialogues multipartites et les dépendances contextuelles étendues. Pour combler cette lacune, nous introduisons DialSim, un simulateur de dialogue en temps réel. Dans ce simulateur, un agent se voit attribuer le rôle d'un personnage issu de séries télévisées populaires, ce qui l'oblige à répondre à des questions spontanées en utilisant les informations des dialogues passés et à distinguer les informations connues des inconnues. Les caractéristiques clés de DialSim incluent l'évaluation de la capacité de l'agent à répondre dans un délai raisonnable, la gestion de dialogues multipartites sur le long terme, et la gestion de scénarios adverses (par exemple, l'échange de noms de personnages) pour mettre à l'épreuve la dépendance de l'agent aux connaissances pré-entraînées. Nous avons utilisé ce simulateur pour évaluer les derniers agents conversationnels et analyser leurs limites. Nos expériences mettent en lumière à la fois les forces et les faiblesses de ces agents, fournissant des insights précieux pour les améliorations futures dans le domaine de l'IA conversationnelle. DialSim est disponible à l'adresse suivante : https://github.com/jiho283/Simulator.
English
Recent advancements in Large Language Models (LLMs) have significantly enhanced the capabilities of conversational agents, making them applicable to various fields (e.g., education). Despite their progress, the evaluation of the agents often overlooks the complexities of real-world conversations, such as real-time interactions, multi-party dialogues, and extended contextual dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue simulator. In this simulator, an agent is assigned the role of a character from popular TV shows, requiring it to respond to spontaneous questions using past dialogue information and to distinguish between known and unknown information. Key features of DialSim include evaluating the agent's ability to respond within a reasonable time limit, handling long-term multi-party dialogues, and managing adversarial settings (e.g., swap character names) to challenge the agent's reliance on pre-trained knowledge. We utilized this simulator to evaluate the latest conversational agents and analyze their limitations. Our experiments highlight both the strengths and weaknesses of these agents, providing valuable insights for future improvements in the field of conversational AI. DialSim is available at https://github.com/jiho283/Simulator.

Summary

AI-Generated Summary

PDF111November 29, 2024