REALTALK : Un jeu de données de 21 jours pour des conversations à long terme en contexte réel
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation
February 18, 2025
Auteurs: Dong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren, Francesco Barbieri
cs.AI
Résumé
Les capacités de dialogue ouvert à long terme sont essentielles pour les chatbots visant à se souvenir des interactions passées et à démontrer une intelligence émotionnelle (IE). Cependant, la plupart des recherches existantes s'appuient sur des données synthétiques générées par des modèles de langage (LLM), laissant des questions ouvertes sur les modèles de conversation réels. Pour combler cette lacune, nous présentons REALTALK, un corpus de 21 jours de dialogues authentiques issus d'applications de messagerie, offrant un benchmark direct par rapport aux interactions humaines réelles.
Nous commençons par une analyse du jeu de données, en nous concentrant sur les attributs d'IE et la cohérence de la persona pour comprendre les défis uniques posés par les dialogues du monde réel. En comparant avec les conversations générées par des LLM, nous mettons en évidence des différences clés, notamment des expressions émotionnelles variées et des variations dans la stabilité de la persona que les dialogues synthétiques échouent souvent à capturer.
Sur la base de ces observations, nous introduisons deux tâches de benchmark : (1) la simulation de persona, où un modèle poursuit une conversation au nom d'un utilisateur spécifique en fonction du contexte de dialogue précédent ; et (2) le sondage de mémoire, où un modèle répond à des questions ciblées nécessitant une mémoire à long terme des interactions passées.
Nos résultats révèlent que les modèles ont du mal à simuler un utilisateur uniquement à partir de l'historique des dialogues, tandis que l'affinage sur des conversations spécifiques d'utilisateurs améliore l'émulation de la persona. De plus, les modèles existants rencontrent des défis significatifs pour se souvenir et exploiter le contexte à long terme dans les conversations réelles.
English
Long-term, open-domain dialogue capabilities are essential for chatbots
aiming to recall past interactions and demonstrate emotional intelligence (EI).
Yet, most existing research relies on synthetic, LLM-generated data, leaving
open questions about real-world conversational patterns. To address this gap,
we introduce REALTALK, a 21-day corpus of authentic messaging app dialogues,
providing a direct benchmark against genuine human interactions.
We first conduct a dataset analysis, focusing on EI attributes and persona
consistency to understand the unique challenges posed by real-world dialogues.
By comparing with LLM-generated conversations, we highlight key differences,
including diverse emotional expressions and variations in persona stability
that synthetic dialogues often fail to capture.
Building on these insights, we introduce two benchmark tasks: (1) persona
simulation where a model continues a conversation on behalf of a specific user
given prior dialogue context; and (2) memory probing where a model answers
targeted questions requiring long-term memory of past interactions.
Our findings reveal that models struggle to simulate a user solely from
dialogue history, while fine-tuning on specific user chats improves persona
emulation. Additionally, existing models face significant challenges in
recalling and leveraging long-term context within real-world conversations.