DialSim: Un Simulatore in Tempo Reale per Valutare la Comprensione a Lungo Termine del Dialogo negli Agenti Conversazionali

Abstract

I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno notevolmente migliorato le capacità degli agenti conversazionali, rendendoli applicabili in vari ambiti (ad esempio, l'educazione). Nonostante i loro avanzamenti, la valutazione di questi agenti spesso trascura le complessità delle conversazioni del mondo reale, come le interazioni in tempo reale, i dialoghi tra più parti e le dipendenze contestuali estese. Per colmare questa lacuna, introduciamo DialSim, un simulatore di dialoghi in tempo reale. In questo simulatore, a un agente viene assegnato il ruolo di un personaggio di serie TV popolari, richiedendogli di rispondere a domande spontanee utilizzando informazioni dai dialoghi precedenti e di distinguere tra informazioni note e sconosciute. Le caratteristiche chiave di DialSim includono la valutazione della capacità dell'agente di rispondere entro un limite di tempo ragionevole, la gestione di dialoghi a lungo termine tra più parti e la gestione di contesti avversari (ad esempio, lo scambio di nomi di personaggi) per mettere alla prova la dipendenza dell'agente dalle conoscenze pre-addestrate. Abbiamo utilizzato questo simulatore per valutare gli ultimi agenti conversazionali e analizzarne i limiti. I nostri esperimenti evidenziano sia i punti di forza che le debolezze di questi agenti, fornendo spunti preziosi per futuri miglioramenti nel campo dell'IA conversazionale. DialSim è disponibile all'indirizzo https://github.com/jiho283/Simulator.

English

Recent advancements in Large Language Models (LLMs) have significantly enhanced the capabilities of conversational agents, making them applicable to various fields (e.g., education). Despite their progress, the evaluation of the agents often overlooks the complexities of real-world conversations, such as real-time interactions, multi-party dialogues, and extended contextual dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue simulator. In this simulator, an agent is assigned the role of a character from popular TV shows, requiring it to respond to spontaneous questions using past dialogue information and to distinguish between known and unknown information. Key features of DialSim include evaluating the agent's ability to respond within a reasonable time limit, handling long-term multi-party dialogues, and managing adversarial settings (e.g., swap character names) to challenge the agent's reliance on pre-trained knowledge. We utilized this simulator to evaluate the latest conversational agents and analyze their limitations. Our experiments highlight both the strengths and weaknesses of these agents, providing valuable insights for future improvements in the field of conversational AI. DialSim is available at https://github.com/jiho283/Simulator.

DialSim: Un Simulatore in Tempo Reale per Valutare la Comprensione a Lungo Termine del Dialogo negli Agenti Conversazionali

DialSim: A Real-Time Simulator for Evaluating Long-Term Dialogue Understanding of Conversational Agents

Abstract

Support