REALTALK: Un Dataset di 21 Giorni per Conversazioni a Lungo Termine nel Mondo Reale
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation
February 18, 2025
Autori: Dong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren, Francesco Barbieri
cs.AI
Abstract
Le capacità di dialogo a lungo termine e in domini aperti sono essenziali per i chatbot che mirano a ricordare interazioni passate e dimostrare intelligenza emotiva (IE). Tuttavia, la maggior parte della ricerca esistente si basa su dati sintetici generati da LLM, lasciando aperte domande sui modelli conversazionali del mondo reale. Per colmare questa lacuna, introduciamo REALTALK, un corpus di 21 giorni di dialoghi autentici provenienti da app di messaggistica, fornendo un benchmark diretto contro interazioni umane genuine.
Iniziamo con un'analisi del dataset, concentrandoci sugli attributi di IE e sulla coerenza della persona per comprendere le sfide uniche poste dai dialoghi del mondo reale. Confrontando con conversazioni generate da LLM, evidenziamo differenze chiave, tra cui espressioni emotive diversificate e variazioni nella stabilità della persona che i dialoghi sintetici spesso non riescono a catturare.
Basandoci su queste intuizioni, introduciamo due task di benchmark: (1) simulazione della persona, in cui un modello continua una conversazione a nome di un utente specifico dato un contesto di dialogo precedente; e (2) sondaggio della memoria, in cui un modello risponde a domande mirate che richiedono una memoria a lungo termine delle interazioni passate.
I nostri risultati rivelano che i modelli faticano a simulare un utente esclusivamente dalla cronologia dei dialoghi, mentre il fine-tuning su chat specifiche dell'utente migliora l'emulazione della persona. Inoltre, i modelli esistenti affrontano sfide significative nel ricordare e sfruttare il contesto a lungo termine all'interno di conversazioni del mondo reale.
English
Long-term, open-domain dialogue capabilities are essential for chatbots
aiming to recall past interactions and demonstrate emotional intelligence (EI).
Yet, most existing research relies on synthetic, LLM-generated data, leaving
open questions about real-world conversational patterns. To address this gap,
we introduce REALTALK, a 21-day corpus of authentic messaging app dialogues,
providing a direct benchmark against genuine human interactions.
We first conduct a dataset analysis, focusing on EI attributes and persona
consistency to understand the unique challenges posed by real-world dialogues.
By comparing with LLM-generated conversations, we highlight key differences,
including diverse emotional expressions and variations in persona stability
that synthetic dialogues often fail to capture.
Building on these insights, we introduce two benchmark tasks: (1) persona
simulation where a model continues a conversation on behalf of a specific user
given prior dialogue context; and (2) memory probing where a model answers
targeted questions requiring long-term memory of past interactions.
Our findings reveal that models struggle to simulate a user solely from
dialogue history, while fine-tuning on specific user chats improves persona
emulation. Additionally, existing models face significant challenges in
recalling and leveraging long-term context within real-world conversations.Summary
AI-Generated Summary