DialSim: Um Simulador em Tempo Real para Avaliar a Compreensão de Diálogo de Longo Prazo de Agentes Conversacionais
DialSim: A Real-Time Simulator for Evaluating Long-Term Dialogue Understanding of Conversational Agents
June 19, 2024
Autores: Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi
cs.AI
Resumo
Os avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) melhoraram significativamente as capacidades de agentes de conversação, tornando-os aplicáveis a várias áreas (por exemplo, educação). Apesar do progresso, a avaliação dos agentes frequentemente negligencia as complexidades das conversas do mundo real, como interações em tempo real, diálogos multipartidários e dependências contextuais prolongadas. Para preencher essa lacuna, apresentamos o DialSim, um simulador de diálogo em tempo real. Neste simulador, um agente é atribuído o papel de um personagem de programas de TV populares, exigindo que responda a perguntas espontâneas usando informações de diálogos passados e distinga entre informações conhecidas e desconhecidas. Recursos-chave do DialSim incluem avaliar a capacidade do agente de responder dentro de um limite de tempo razoável, lidar com diálogos multipartidários de longo prazo e gerenciar configurações adversariais (por exemplo, trocar nomes de personagens) para desafiar a dependência do agente ao conhecimento pré-treinado. Utilizamos este simulador para avaliar os últimos agentes de conversação e analisar suas limitações. Nossos experimentos destacam tanto os pontos fortes quanto as fraquezas desses agentes, fornecendo insights valiosos para futuras melhorias no campo de IA conversacional. O DialSim está disponível em https://github.com/jiho283/Simulator.
English
Recent advancements in Large Language Models (LLMs) have significantly
enhanced the capabilities of conversational agents, making them applicable to
various fields (e.g., education). Despite their progress, the evaluation of the
agents often overlooks the complexities of real-world conversations, such as
real-time interactions, multi-party dialogues, and extended contextual
dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue
simulator. In this simulator, an agent is assigned the role of a character from
popular TV shows, requiring it to respond to spontaneous questions using past
dialogue information and to distinguish between known and unknown information.
Key features of DialSim include evaluating the agent's ability to respond
within a reasonable time limit, handling long-term multi-party dialogues, and
managing adversarial settings (e.g., swap character names) to challenge the
agent's reliance on pre-trained knowledge. We utilized this simulator to
evaluate the latest conversational agents and analyze their limitations. Our
experiments highlight both the strengths and weaknesses of these agents,
providing valuable insights for future improvements in the field of
conversational AI. DialSim is available at
https://github.com/jiho283/Simulator.