REALTALK: 21-дневный набор данных реальных диалогов для долгосрочного общения
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation
February 18, 2025
Авторы: Dong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren, Francesco Barbieri
cs.AI
Аннотация
Долгосрочные способности к открытому диалогу имеют ключевое значение для чат-ботов, стремящихся запоминать прошлые взаимодействия и демонстрировать эмоциональный интеллект (ЭИ). Однако большинство существующих исследований опирается на синтетические данные, сгенерированные крупными языковыми моделями (LLM), что оставляет открытыми вопросы о реальных паттернах общения. Чтобы восполнить этот пробел, мы представляем REALTALK — 21-дневный корпус аутентичных диалогов из мессенджеров, который служит прямым эталоном для сравнения с реальными человеческими взаимодействиями.
Сначала мы проводим анализ набора данных, сосредотачиваясь на атрибутах ЭИ и согласованности личности, чтобы понять уникальные вызовы, которые ставят реальные диалоги. Сравнивая их с диалогами, сгенерированными LLM, мы выделяем ключевые различия, включая разнообразие эмоциональных выражений и вариации в стабильности личности, которые синтетические диалоги часто не способны передать.
На основе этих наблюдений мы вводим две эталонные задачи: (1) симуляция личности, где модель продолжает диалог от имени конкретного пользователя, учитывая контекст предыдущих сообщений; и (2) проверка памяти, где модель отвечает на целевые вопросы, требующие долгосрочного запоминания прошлых взаимодействий.
Наши результаты показывают, что модели испытывают трудности в симуляции пользователя исключительно на основе истории диалогов, в то время как дообучение на конкретных чатах улучшает эмуляцию личности. Кроме того, существующие модели сталкиваются с существенными сложностями в запоминании и использовании долгосрочного контекста в рамках реальных разговоров.
English
Long-term, open-domain dialogue capabilities are essential for chatbots
aiming to recall past interactions and demonstrate emotional intelligence (EI).
Yet, most existing research relies on synthetic, LLM-generated data, leaving
open questions about real-world conversational patterns. To address this gap,
we introduce REALTALK, a 21-day corpus of authentic messaging app dialogues,
providing a direct benchmark against genuine human interactions.
We first conduct a dataset analysis, focusing on EI attributes and persona
consistency to understand the unique challenges posed by real-world dialogues.
By comparing with LLM-generated conversations, we highlight key differences,
including diverse emotional expressions and variations in persona stability
that synthetic dialogues often fail to capture.
Building on these insights, we introduce two benchmark tasks: (1) persona
simulation where a model continues a conversation on behalf of a specific user
given prior dialogue context; and (2) memory probing where a model answers
targeted questions requiring long-term memory of past interactions.
Our findings reveal that models struggle to simulate a user solely from
dialogue history, while fine-tuning on specific user chats improves persona
emulation. Additionally, existing models face significant challenges in
recalling and leveraging long-term context within real-world conversations.Summary
AI-Generated Summary