REALTALK: Un Dataset di 21 Giorni per Conversazioni a Lungo Termine nel Mondo Reale

Abstract

Le capacità di dialogo a lungo termine e in domini aperti sono essenziali per i chatbot che mirano a ricordare interazioni passate e dimostrare intelligenza emotiva (IE). Tuttavia, la maggior parte della ricerca esistente si basa su dati sintetici generati da LLM, lasciando aperte domande sui modelli conversazionali del mondo reale. Per colmare questa lacuna, introduciamo REALTALK, un corpus di 21 giorni di dialoghi autentici provenienti da app di messaggistica, fornendo un benchmark diretto contro interazioni umane genuine. Iniziamo con un'analisi del dataset, concentrandoci sugli attributi di IE e sulla coerenza della persona per comprendere le sfide uniche poste dai dialoghi del mondo reale. Confrontando con conversazioni generate da LLM, evidenziamo differenze chiave, tra cui espressioni emotive diversificate e variazioni nella stabilità della persona che i dialoghi sintetici spesso non riescono a catturare. Basandoci su queste intuizioni, introduciamo due task di benchmark: (1) simulazione della persona, in cui un modello continua una conversazione a nome di un utente specifico dato un contesto di dialogo precedente; e (2) sondaggio della memoria, in cui un modello risponde a domande mirate che richiedono una memoria a lungo termine delle interazioni passate. I nostri risultati rivelano che i modelli faticano a simulare un utente esclusivamente dalla cronologia dei dialoghi, mentre il fine-tuning su chat specifiche dell'utente migliora l'emulazione della persona. Inoltre, i modelli esistenti affrontano sfide significative nel ricordare e sfruttare il contesto a lungo termine all'interno di conversazioni del mondo reale.

English

Long-term, open-domain dialogue capabilities are essential for chatbots aiming to recall past interactions and demonstrate emotional intelligence (EI). Yet, most existing research relies on synthetic, LLM-generated data, leaving open questions about real-world conversational patterns. To address this gap, we introduce REALTALK, a 21-day corpus of authentic messaging app dialogues, providing a direct benchmark against genuine human interactions. We first conduct a dataset analysis, focusing on EI attributes and persona consistency to understand the unique challenges posed by real-world dialogues. By comparing with LLM-generated conversations, we highlight key differences, including diverse emotional expressions and variations in persona stability that synthetic dialogues often fail to capture. Building on these insights, we introduce two benchmark tasks: (1) persona simulation where a model continues a conversation on behalf of a specific user given prior dialogue context; and (2) memory probing where a model answers targeted questions requiring long-term memory of past interactions. Our findings reveal that models struggle to simulate a user solely from dialogue history, while fine-tuning on specific user chats improves persona emulation. Additionally, existing models face significant challenges in recalling and leveraging long-term context within real-world conversations.

REALTALK: Un Dataset di 21 Giorni per Conversazioni a Lungo Termine nel Mondo Reale

REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation

Abstract

Support