DialSim: Un Simulatore in Tempo Reale per Valutare la Comprensione a Lungo Termine del Dialogo negli Agenti Conversazionali
DialSim: A Real-Time Simulator for Evaluating Long-Term Dialogue Understanding of Conversational Agents
June 19, 2024
Autori: Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi
cs.AI
Abstract
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno notevolmente migliorato le capacità degli agenti conversazionali, rendendoli applicabili in vari ambiti (ad esempio, l'educazione). Nonostante i loro avanzamenti, la valutazione di questi agenti spesso trascura le complessità delle conversazioni del mondo reale, come le interazioni in tempo reale, i dialoghi tra più parti e le dipendenze contestuali estese. Per colmare questa lacuna, introduciamo DialSim, un simulatore di dialoghi in tempo reale. In questo simulatore, a un agente viene assegnato il ruolo di un personaggio di serie TV popolari, richiedendogli di rispondere a domande spontanee utilizzando informazioni dai dialoghi precedenti e di distinguere tra informazioni note e sconosciute. Le caratteristiche chiave di DialSim includono la valutazione della capacità dell'agente di rispondere entro un limite di tempo ragionevole, la gestione di dialoghi a lungo termine tra più parti e la gestione di contesti avversari (ad esempio, lo scambio di nomi di personaggi) per mettere alla prova la dipendenza dell'agente dalle conoscenze pre-addestrate. Abbiamo utilizzato questo simulatore per valutare gli ultimi agenti conversazionali e analizzarne i limiti. I nostri esperimenti evidenziano sia i punti di forza che le debolezze di questi agenti, fornendo spunti preziosi per futuri miglioramenti nel campo dell'IA conversazionale. DialSim è disponibile all'indirizzo https://github.com/jiho283/Simulator.
English
Recent advancements in Large Language Models (LLMs) have significantly
enhanced the capabilities of conversational agents, making them applicable to
various fields (e.g., education). Despite their progress, the evaluation of the
agents often overlooks the complexities of real-world conversations, such as
real-time interactions, multi-party dialogues, and extended contextual
dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue
simulator. In this simulator, an agent is assigned the role of a character from
popular TV shows, requiring it to respond to spontaneous questions using past
dialogue information and to distinguish between known and unknown information.
Key features of DialSim include evaluating the agent's ability to respond
within a reasonable time limit, handling long-term multi-party dialogues, and
managing adversarial settings (e.g., swap character names) to challenge the
agent's reliance on pre-trained knowledge. We utilized this simulator to
evaluate the latest conversational agents and analyze their limitations. Our
experiments highlight both the strengths and weaknesses of these agents,
providing valuable insights for future improvements in the field of
conversational AI. DialSim is available at
https://github.com/jiho283/Simulator.