REALTALK: Un conjunto de datos de 21 días para conversaciones a largo plazo en el mundo real
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation
February 18, 2025
Autores: Dong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren, Francesco Barbieri
cs.AI
Resumen
A largo plazo, las capacidades de diálogo en dominios abiertos son esenciales para los chatbots que buscan recordar interacciones pasadas y demostrar inteligencia emocional (IE). Sin embargo, la mayoría de las investigaciones existentes se basan en datos sintéticos generados por modelos de lenguaje (LLM), dejando preguntas abiertas sobre los patrones conversacionales del mundo real. Para abordar esta brecha, presentamos REALTALK, un corpus de 21 días de diálogos auténticos de aplicaciones de mensajería, que proporciona un punto de referencia directo frente a interacciones humanas genuinas.
Primero, realizamos un análisis del conjunto de datos, centrándonos en los atributos de IE y la consistencia de la personalidad para comprender los desafíos únicos que plantean los diálogos del mundo real. Al comparar con conversaciones generadas por LLM, destacamos diferencias clave, incluidas expresiones emocionales diversas y variaciones en la estabilidad de la personalidad que los diálogos sintéticos a menudo no logran capturar.
Basándonos en estas observaciones, introducimos dos tareas de referencia: (1) simulación de personalidad, donde un modelo continúa una conversación en nombre de un usuario específico dado un contexto de diálogo previo; y (2) sondeo de memoria, donde un modelo responde preguntas específicas que requieren memoria a largo plazo de interacciones pasadas.
Nuestros hallazgos revelan que los modelos tienen dificultades para simular a un usuario únicamente a partir del historial de diálogos, mientras que el ajuste fino en chats específicos del usuario mejora la emulación de la personalidad. Además, los modelos existentes enfrentan desafíos significativos para recordar y aprovechar el contexto a largo plazo dentro de conversaciones del mundo real.
English
Long-term, open-domain dialogue capabilities are essential for chatbots
aiming to recall past interactions and demonstrate emotional intelligence (EI).
Yet, most existing research relies on synthetic, LLM-generated data, leaving
open questions about real-world conversational patterns. To address this gap,
we introduce REALTALK, a 21-day corpus of authentic messaging app dialogues,
providing a direct benchmark against genuine human interactions.
We first conduct a dataset analysis, focusing on EI attributes and persona
consistency to understand the unique challenges posed by real-world dialogues.
By comparing with LLM-generated conversations, we highlight key differences,
including diverse emotional expressions and variations in persona stability
that synthetic dialogues often fail to capture.
Building on these insights, we introduce two benchmark tasks: (1) persona
simulation where a model continues a conversation on behalf of a specific user
given prior dialogue context; and (2) memory probing where a model answers
targeted questions requiring long-term memory of past interactions.
Our findings reveal that models struggle to simulate a user solely from
dialogue history, while fine-tuning on specific user chats improves persona
emulation. Additionally, existing models face significant challenges in
recalling and leveraging long-term context within real-world conversations.Summary
AI-Generated Summary