REALTALK: Ein 21-tägiger Echtzeit-Datensatz für langfristige Konversationen
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation
February 18, 2025
Autoren: Dong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren, Francesco Barbieri
cs.AI
Zusammenfassung
Langfristige, domänenübergreifende Dialogfähigkeiten sind entscheidend für Chatbots, die vergangene Interaktionen abrufen und emotionale Intelligenz (EI) demonstrieren sollen. Dennoch stützt sich die meisten bestehenden Forschung auf synthetische, von LLM generierte Daten, was Fragen zu realen Gesprächsmustern offenlässt. Um diese Lücke zu schließen, stellen wir REALTALK vor, ein 21-tägiges Korpus authentischer Messaging-App-Dialoge, das einen direkten Benchmark für echte menschliche Interaktionen bietet.
Zunächst führen wir eine Datenanalyse durch, die sich auf EI-Attribute und Personenkonsistenz konzentriert, um die einzigartigen Herausforderungen realer Dialoge zu verstehen. Durch den Vergleich mit LLM-generierten Gesprächen heben wir wesentliche Unterschiede hervor, darunter vielfältige emotionale Ausdrucksformen und Schwankungen in der Personenstabilität, die synthetische Dialoge oft nicht erfassen.
Aufbauend auf diesen Erkenntnissen führen wir zwei Benchmark-Aufgaben ein: (1) Personensimulation, bei der ein Modell ein Gespräch im Namen eines bestimmten Nutzers basierend auf vorherigem Dialogkontext fortsetzt; und (2) Gedächtnisabfrage, bei der ein Modell gezielte Fragen beantwortet, die ein Langzeitgedächtnis vergangener Interaktionen erfordern.
Unsere Ergebnisse zeigen, dass Modelle Schwierigkeiten haben, einen Nutzer allein aus dem Dialogverlauf zu simulieren, während das Fine-Tuning auf spezifische Nutzerchats die Personennachahmung verbessert. Darüber hinaus stehen bestehende Modelle vor erheblichen Herausforderungen, wenn es darum geht, langfristigen Kontext in realen Gesprächen abzurufen und zu nutzen.
English
Long-term, open-domain dialogue capabilities are essential for chatbots
aiming to recall past interactions and demonstrate emotional intelligence (EI).
Yet, most existing research relies on synthetic, LLM-generated data, leaving
open questions about real-world conversational patterns. To address this gap,
we introduce REALTALK, a 21-day corpus of authentic messaging app dialogues,
providing a direct benchmark against genuine human interactions.
We first conduct a dataset analysis, focusing on EI attributes and persona
consistency to understand the unique challenges posed by real-world dialogues.
By comparing with LLM-generated conversations, we highlight key differences,
including diverse emotional expressions and variations in persona stability
that synthetic dialogues often fail to capture.
Building on these insights, we introduce two benchmark tasks: (1) persona
simulation where a model continues a conversation on behalf of a specific user
given prior dialogue context; and (2) memory probing where a model answers
targeted questions requiring long-term memory of past interactions.
Our findings reveal that models struggle to simulate a user solely from
dialogue history, while fine-tuning on specific user chats improves persona
emulation. Additionally, existing models face significant challenges in
recalling and leveraging long-term context within real-world conversations.Summary
AI-Generated Summary