REALTALK: 21-дневный набор данных реальных диалогов для долгосрочного общения

Аннотация

Долгосрочные способности к открытому диалогу имеют ключевое значение для чат-ботов, стремящихся запоминать прошлые взаимодействия и демонстрировать эмоциональный интеллект (ЭИ). Однако большинство существующих исследований опирается на синтетические данные, сгенерированные крупными языковыми моделями (LLM), что оставляет открытыми вопросы о реальных паттернах общения. Чтобы восполнить этот пробел, мы представляем REALTALK — 21-дневный корпус аутентичных диалогов из мессенджеров, который служит прямым эталоном для сравнения с реальными человеческими взаимодействиями. Сначала мы проводим анализ набора данных, сосредотачиваясь на атрибутах ЭИ и согласованности личности, чтобы понять уникальные вызовы, которые ставят реальные диалоги. Сравнивая их с диалогами, сгенерированными LLM, мы выделяем ключевые различия, включая разнообразие эмоциональных выражений и вариации в стабильности личности, которые синтетические диалоги часто не способны передать. На основе этих наблюдений мы вводим две эталонные задачи: (1) симуляция личности, где модель продолжает диалог от имени конкретного пользователя, учитывая контекст предыдущих сообщений; и (2) проверка памяти, где модель отвечает на целевые вопросы, требующие долгосрочного запоминания прошлых взаимодействий. Наши результаты показывают, что модели испытывают трудности в симуляции пользователя исключительно на основе истории диалогов, в то время как дообучение на конкретных чатах улучшает эмуляцию личности. Кроме того, существующие модели сталкиваются с существенными сложностями в запоминании и использовании долгосрочного контекста в рамках реальных разговоров.

English

Long-term, open-domain dialogue capabilities are essential for chatbots aiming to recall past interactions and demonstrate emotional intelligence (EI). Yet, most existing research relies on synthetic, LLM-generated data, leaving open questions about real-world conversational patterns. To address this gap, we introduce REALTALK, a 21-day corpus of authentic messaging app dialogues, providing a direct benchmark against genuine human interactions. We first conduct a dataset analysis, focusing on EI attributes and persona consistency to understand the unique challenges posed by real-world dialogues. By comparing with LLM-generated conversations, we highlight key differences, including diverse emotional expressions and variations in persona stability that synthetic dialogues often fail to capture. Building on these insights, we introduce two benchmark tasks: (1) persona simulation where a model continues a conversation on behalf of a specific user given prior dialogue context; and (2) memory probing where a model answers targeted questions requiring long-term memory of past interactions. Our findings reveal that models struggle to simulate a user solely from dialogue history, while fine-tuning on specific user chats improves persona emulation. Additionally, existing models face significant challenges in recalling and leveraging long-term context within real-world conversations.

REALTALK: 21-дневный набор данных реальных диалогов для долгосрочного общения

REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation

Аннотация

Support