ChatPaper.aiChatPaper

DialSim: 会話エージェントの長期対話理解を評価するためのリアルタイムシミュレータ

DialSim: A Real-Time Simulator for Evaluating Long-Term Dialogue Understanding of Conversational Agents

June 19, 2024
著者: Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi
cs.AI

要旨

大規模言語モデル(LLMs)の最近の進歩により、会話エージェントの能力が大幅に向上し、教育などさまざまな分野での応用が可能となっています。しかし、その進歩にもかかわらず、エージェントの評価では、リアルタイムの相互作用、複数者間の対話、長期的な文脈依存性など、現実世界の会話の複雑さがしばしば見過ごされています。このギャップを埋めるため、我々はDialSimというリアルタイム対話シミュレータを導入しました。このシミュレータでは、エージェントは人気テレビ番組のキャラクターの役割を割り当てられ、過去の対話情報を使用して即興の質問に応答し、既知と未知の情報を区別する必要があります。DialSimの主な特徴は、エージェントが合理的な時間制限内で応答する能力を評価すること、長期的な複数者間の対話を処理すること、およびエージェントの事前学習済み知識への依存を試すための敵対的設定(例:キャラクター名の入れ替え)を管理することです。我々はこのシミュレータを使用して最新の会話エージェントを評価し、その限界を分析しました。実験結果は、これらのエージェントの強みと弱みを浮き彫りにし、会話AI分野の今後の改善に向けた貴重な洞察を提供します。DialSimはhttps://github.com/jiho283/Simulatorで利用可能です。
English
Recent advancements in Large Language Models (LLMs) have significantly enhanced the capabilities of conversational agents, making them applicable to various fields (e.g., education). Despite their progress, the evaluation of the agents often overlooks the complexities of real-world conversations, such as real-time interactions, multi-party dialogues, and extended contextual dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue simulator. In this simulator, an agent is assigned the role of a character from popular TV shows, requiring it to respond to spontaneous questions using past dialogue information and to distinguish between known and unknown information. Key features of DialSim include evaluating the agent's ability to respond within a reasonable time limit, handling long-term multi-party dialogues, and managing adversarial settings (e.g., swap character names) to challenge the agent's reliance on pre-trained knowledge. We utilized this simulator to evaluate the latest conversational agents and analyze their limitations. Our experiments highlight both the strengths and weaknesses of these agents, providing valuable insights for future improvements in the field of conversational AI. DialSim is available at https://github.com/jiho283/Simulator.

Summary

AI-Generated Summary

PDF111November 29, 2024