REALTALK: Um Conjunto de Dados de 21 Dias do Mundo Real para Conversas de Longo Prazo

Resumo

A longo prazo, capacidades de diálogo em domínio aberto são essenciais para chatbots que visam recordar interações passadas e demonstrar inteligência emocional (IE). No entanto, a maioria das pesquisas existentes depende de dados sintéticos gerados por LLMs (Large Language Models), deixando questões em aberto sobre padrões conversacionais do mundo real. Para abordar essa lacuna, apresentamos o REALTALK, um corpus de 21 dias de diálogos autênticos de aplicativos de mensagens, fornecendo um benchmark direto contra interações humanas genuínas. Primeiro, realizamos uma análise do conjunto de dados, focando em atributos de IE e consistência de persona para entender os desafios únicos apresentados por diálogos do mundo real. Ao comparar com conversas geradas por LLMs, destacamos diferenças-chave, incluindo expressões emocionais diversas e variações na estabilidade da persona que diálogos sintéticos frequentemente não conseguem capturar. Com base nessas percepções, introduzimos duas tarefas de benchmark: (1) simulação de persona, em que um modelo continua uma conversa em nome de um usuário específico, dado o contexto de diálogo anterior; e (2) sondagem de memória, em que um modelo responde a perguntas direcionadas que exigem memória de longo prazo de interações passadas. Nossos resultados revelam que os modelos têm dificuldade em simular um usuário apenas com base no histórico de diálogo, enquanto o fine-tuning em chats específicos do usuário melhora a emulação da persona. Além disso, os modelos existentes enfrentam desafios significativos em recordar e aproveitar o contexto de longo prazo em conversas do mundo real.

English

Long-term, open-domain dialogue capabilities are essential for chatbots aiming to recall past interactions and demonstrate emotional intelligence (EI). Yet, most existing research relies on synthetic, LLM-generated data, leaving open questions about real-world conversational patterns. To address this gap, we introduce REALTALK, a 21-day corpus of authentic messaging app dialogues, providing a direct benchmark against genuine human interactions. We first conduct a dataset analysis, focusing on EI attributes and persona consistency to understand the unique challenges posed by real-world dialogues. By comparing with LLM-generated conversations, we highlight key differences, including diverse emotional expressions and variations in persona stability that synthetic dialogues often fail to capture. Building on these insights, we introduce two benchmark tasks: (1) persona simulation where a model continues a conversation on behalf of a specific user given prior dialogue context; and (2) memory probing where a model answers targeted questions requiring long-term memory of past interactions. Our findings reveal that models struggle to simulate a user solely from dialogue history, while fine-tuning on specific user chats improves persona emulation. Additionally, existing models face significant challenges in recalling and leveraging long-term context within real-world conversations.

REALTALK: Um Conjunto de Dados de 21 Dias do Mundo Real para Conversas de Longo Prazo

REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation

Resumo

Support