ChatPaper.aiChatPaper

DialSim: 대화형 에이전트의 장기적 대화 이해 평가를 위한 실시간 시뮬레이터

DialSim: A Real-Time Simulator for Evaluating Long-Term Dialogue Understanding of Conversational Agents

June 19, 2024
저자: Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi
cs.AI

초록

대규모 언어 모델(LLMs)의 최근 발전은 대화 에이전트의 능력을 크게 향상시켜 다양한 분야(예: 교육)에 적용 가능하게 만들었습니다. 그러나 이러한 진전에도 불구하고, 대화 에이전트의 평가는 실시간 상호작용, 다자간 대화, 장기적인 문맥 의존성과 같은 실제 대화의 복잡성을 종종 간과합니다. 이러한 격차를 해소하기 위해, 우리는 실시간 대화 시뮬레이터인 DialSim을 소개합니다. 이 시뮬레이터에서 에이전트는 인기 TV 프로그램의 캐릭터 역할을 맡아, 과거 대화 정보를 활용해 즉흥적인 질문에 응답하고, 알려진 정보와 알려지지 않은 정보를 구분해야 합니다. DialSim의 주요 기능은 에이전트가 합리적인 시간 내에 응답하는 능력을 평가하고, 장기적인 다자간 대화를 처리하며, 사전 학습된 지식에 대한 의존도를 시험하기 위해 적대적 설정(예: 캐릭터 이름 교체)을 관리하는 것입니다. 우리는 이 시뮬레이터를 사용해 최신 대화 에이전트를 평가하고 그들의 한계를 분석했습니다. 실험 결과는 이러한 에이전트의 강점과 약점을 모두 보여주며, 대화형 AI 분야의 미래 개선을 위한 귀중한 통찰을 제공합니다. DialSim은 https://github.com/jiho283/Simulator에서 이용 가능합니다.
English
Recent advancements in Large Language Models (LLMs) have significantly enhanced the capabilities of conversational agents, making them applicable to various fields (e.g., education). Despite their progress, the evaluation of the agents often overlooks the complexities of real-world conversations, such as real-time interactions, multi-party dialogues, and extended contextual dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue simulator. In this simulator, an agent is assigned the role of a character from popular TV shows, requiring it to respond to spontaneous questions using past dialogue information and to distinguish between known and unknown information. Key features of DialSim include evaluating the agent's ability to respond within a reasonable time limit, handling long-term multi-party dialogues, and managing adversarial settings (e.g., swap character names) to challenge the agent's reliance on pre-trained knowledge. We utilized this simulator to evaluate the latest conversational agents and analyze their limitations. Our experiments highlight both the strengths and weaknesses of these agents, providing valuable insights for future improvements in the field of conversational AI. DialSim is available at https://github.com/jiho283/Simulator.
PDF111November 29, 2024