REALTALK: Ein 21-tägiger Echtzeit-Datensatz für langfristige Konversationen

papers.abstract

Langfristige, domänenübergreifende Dialogfähigkeiten sind entscheidend für Chatbots, die vergangene Interaktionen abrufen und emotionale Intelligenz (EI) demonstrieren sollen. Dennoch stützt sich die meisten bestehenden Forschung auf synthetische, von LLM generierte Daten, was Fragen zu realen Gesprächsmustern offenlässt. Um diese Lücke zu schließen, stellen wir REALTALK vor, ein 21-tägiges Korpus authentischer Messaging-App-Dialoge, das einen direkten Benchmark für echte menschliche Interaktionen bietet. Zunächst führen wir eine Datenanalyse durch, die sich auf EI-Attribute und Personenkonsistenz konzentriert, um die einzigartigen Herausforderungen realer Dialoge zu verstehen. Durch den Vergleich mit LLM-generierten Gesprächen heben wir wesentliche Unterschiede hervor, darunter vielfältige emotionale Ausdrucksformen und Schwankungen in der Personenstabilität, die synthetische Dialoge oft nicht erfassen. Aufbauend auf diesen Erkenntnissen führen wir zwei Benchmark-Aufgaben ein: (1) Personensimulation, bei der ein Modell ein Gespräch im Namen eines bestimmten Nutzers basierend auf vorherigem Dialogkontext fortsetzt; und (2) Gedächtnisabfrage, bei der ein Modell gezielte Fragen beantwortet, die ein Langzeitgedächtnis vergangener Interaktionen erfordern. Unsere Ergebnisse zeigen, dass Modelle Schwierigkeiten haben, einen Nutzer allein aus dem Dialogverlauf zu simulieren, während das Fine-Tuning auf spezifische Nutzerchats die Personennachahmung verbessert. Darüber hinaus stehen bestehende Modelle vor erheblichen Herausforderungen, wenn es darum geht, langfristigen Kontext in realen Gesprächen abzurufen und zu nutzen.

English

Long-term, open-domain dialogue capabilities are essential for chatbots aiming to recall past interactions and demonstrate emotional intelligence (EI). Yet, most existing research relies on synthetic, LLM-generated data, leaving open questions about real-world conversational patterns. To address this gap, we introduce REALTALK, a 21-day corpus of authentic messaging app dialogues, providing a direct benchmark against genuine human interactions. We first conduct a dataset analysis, focusing on EI attributes and persona consistency to understand the unique challenges posed by real-world dialogues. By comparing with LLM-generated conversations, we highlight key differences, including diverse emotional expressions and variations in persona stability that synthetic dialogues often fail to capture. Building on these insights, we introduce two benchmark tasks: (1) persona simulation where a model continues a conversation on behalf of a specific user given prior dialogue context; and (2) memory probing where a model answers targeted questions requiring long-term memory of past interactions. Our findings reveal that models struggle to simulate a user solely from dialogue history, while fine-tuning on specific user chats improves persona emulation. Additionally, existing models face significant challenges in recalling and leveraging long-term context within real-world conversations.

REALTALK: Ein 21-tägiger Echtzeit-Datensatz für langfristige Konversationen

REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation

papers.abstract

Support