DialSim: Un simulador en tiempo real para evaluar la comprensión de diálogos a largo plazo en agentes conversacionales
DialSim: A Real-Time Simulator for Evaluating Long-Term Dialogue Understanding of Conversational Agents
June 19, 2024
Autores: Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi
cs.AI
Resumen
Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han mejorado significativamente las capacidades de los agentes conversacionales, haciéndolos aplicables en diversos campos (por ejemplo, la educación). A pesar de su progreso, la evaluación de estos agentes a menudo pasa por alto las complejidades de las conversaciones del mundo real, como las interacciones en tiempo real, los diálogos multipartícipes y las dependencias contextuales extendidas. Para cerrar esta brecha, presentamos DialSim, un simulador de diálogo en tiempo real. En este simulador, a un agente se le asigna el papel de un personaje de series de televisión populares, requiriéndole que responda a preguntas espontáneas utilizando información de diálogos previos y que distinga entre información conocida y desconocida. Las características clave de DialSim incluyen evaluar la capacidad del agente para responder dentro de un límite de tiempo razonable, manejar diálogos multipartícipes a largo plazo y gestionar configuraciones adversas (por ejemplo, intercambiar nombres de personajes) para desafiar la dependencia del agente en el conocimiento preentrenado. Utilizamos este simulador para evaluar los últimos agentes conversacionales y analizar sus limitaciones. Nuestros experimentos destacan tanto las fortalezas como las debilidades de estos agentes, proporcionando insights valiosos para futuras mejoras en el campo de la IA conversacional. DialSim está disponible en https://github.com/jiho283/Simulator.
English
Recent advancements in Large Language Models (LLMs) have significantly
enhanced the capabilities of conversational agents, making them applicable to
various fields (e.g., education). Despite their progress, the evaluation of the
agents often overlooks the complexities of real-world conversations, such as
real-time interactions, multi-party dialogues, and extended contextual
dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue
simulator. In this simulator, an agent is assigned the role of a character from
popular TV shows, requiring it to respond to spontaneous questions using past
dialogue information and to distinguish between known and unknown information.
Key features of DialSim include evaluating the agent's ability to respond
within a reasonable time limit, handling long-term multi-party dialogues, and
managing adversarial settings (e.g., swap character names) to challenge the
agent's reliance on pre-trained knowledge. We utilized this simulator to
evaluate the latest conversational agents and analyze their limitations. Our
experiments highlight both the strengths and weaknesses of these agents,
providing valuable insights for future improvements in the field of
conversational AI. DialSim is available at
https://github.com/jiho283/Simulator.Summary
AI-Generated Summary