REALTALK: Een 21-daagse real-world dataset voor langetermijnconversaties
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation
February 18, 2025
Auteurs: Dong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren, Francesco Barbieri
cs.AI
Samenvatting
Op de lange termijn zijn open-domein dialoogcapaciteiten essentieel voor chatbots die eerdere interacties willen onthouden en emotionele intelligentie (EI) willen demonstreren. Toch vertrouwt het meeste bestaande onderzoek op synthetische, door LLM gegenereerde data, waardoor er vragen open blijven over conversatiepatronen in de echte wereld. Om deze kloof te dichten, introduceren we REALTALK, een 21-daags corpus van authentieke berichtenapp-dialogen, dat een directe benchmark biedt tegenover echte menselijke interacties.
We beginnen met een datasetanalyse, waarbij we focussen op EI-kenmerken en persona-consistentie om de unieke uitdagingen van echte werelddialogen te begrijpen. Door vergelijking met door LLM gegenereerde gesprekken, benadrukken we belangrijke verschillen, waaronder diverse emotionele uitdrukkingen en variaties in persona-stabiliteit die synthetische dialogen vaak niet kunnen vastleggen.
Gebaseerd op deze inzichten introduceren we twee benchmarktaken: (1) persona-simulatie, waarbij een model een gesprek voortzet namens een specifieke gebruiker op basis van eerdere dialoogcontext; en (2) geheugenpeiling, waarbij een model gerichte vragen beantwoordt die een langetermijngeheugen van eerdere interacties vereisen.
Onze bevindingen tonen aan dat modellen moeite hebben om een gebruiker uitsluitend op basis van dialooggeschiedenis te simuleren, terwijl fine-tuning op specifieke gebruikerschats de persona-emulatie verbetert. Daarnaast ondervinden bestaande modellen aanzienlijke uitdagingen bij het oproepen en benutten van langetermijncontext binnen echte wereldconversaties.
English
Long-term, open-domain dialogue capabilities are essential for chatbots
aiming to recall past interactions and demonstrate emotional intelligence (EI).
Yet, most existing research relies on synthetic, LLM-generated data, leaving
open questions about real-world conversational patterns. To address this gap,
we introduce REALTALK, a 21-day corpus of authentic messaging app dialogues,
providing a direct benchmark against genuine human interactions.
We first conduct a dataset analysis, focusing on EI attributes and persona
consistency to understand the unique challenges posed by real-world dialogues.
By comparing with LLM-generated conversations, we highlight key differences,
including diverse emotional expressions and variations in persona stability
that synthetic dialogues often fail to capture.
Building on these insights, we introduce two benchmark tasks: (1) persona
simulation where a model continues a conversation on behalf of a specific user
given prior dialogue context; and (2) memory probing where a model answers
targeted questions requiring long-term memory of past interactions.
Our findings reveal that models struggle to simulate a user solely from
dialogue history, while fine-tuning on specific user chats improves persona
emulation. Additionally, existing models face significant challenges in
recalling and leveraging long-term context within real-world conversations.Summary
AI-Generated Summary