DialSim: Un simulador en tiempo real para evaluar la comprensión de diálogos a largo plazo en agentes conversacionales

Resumen

Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han mejorado significativamente las capacidades de los agentes conversacionales, haciéndolos aplicables en diversos campos (por ejemplo, la educación). A pesar de su progreso, la evaluación de estos agentes a menudo pasa por alto las complejidades de las conversaciones del mundo real, como las interacciones en tiempo real, los diálogos multipartícipes y las dependencias contextuales extendidas. Para cerrar esta brecha, presentamos DialSim, un simulador de diálogo en tiempo real. En este simulador, a un agente se le asigna el papel de un personaje de series de televisión populares, requiriéndole que responda a preguntas espontáneas utilizando información de diálogos previos y que distinga entre información conocida y desconocida. Las características clave de DialSim incluyen evaluar la capacidad del agente para responder dentro de un límite de tiempo razonable, manejar diálogos multipartícipes a largo plazo y gestionar configuraciones adversas (por ejemplo, intercambiar nombres de personajes) para desafiar la dependencia del agente en el conocimiento preentrenado. Utilizamos este simulador para evaluar los últimos agentes conversacionales y analizar sus limitaciones. Nuestros experimentos destacan tanto las fortalezas como las debilidades de estos agentes, proporcionando insights valiosos para futuras mejoras en el campo de la IA conversacional. DialSim está disponible en https://github.com/jiho283/Simulator.

English

Recent advancements in Large Language Models (LLMs) have significantly enhanced the capabilities of conversational agents, making them applicable to various fields (e.g., education). Despite their progress, the evaluation of the agents often overlooks the complexities of real-world conversations, such as real-time interactions, multi-party dialogues, and extended contextual dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue simulator. In this simulator, an agent is assigned the role of a character from popular TV shows, requiring it to respond to spontaneous questions using past dialogue information and to distinguish between known and unknown information. Key features of DialSim include evaluating the agent's ability to respond within a reasonable time limit, handling long-term multi-party dialogues, and managing adversarial settings (e.g., swap character names) to challenge the agent's reliance on pre-trained knowledge. We utilized this simulator to evaluate the latest conversational agents and analyze their limitations. Our experiments highlight both the strengths and weaknesses of these agents, providing valuable insights for future improvements in the field of conversational AI. DialSim is available at https://github.com/jiho283/Simulator.

DialSim: Un simulador en tiempo real para evaluar la comprensión de diálogos a largo plazo en agentes conversacionales

DialSim: A Real-Time Simulator for Evaluating Long-Term Dialogue Understanding of Conversational Agents

Resumen

Support