REALTALK: 長期会話のための21日間の実世界データセット
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation
February 18, 2025
著者: Dong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren, Francesco Barbieri
cs.AI
要旨
長期的かつオープンドメインの対話能力は、過去のやり取りを想起し、感情知能(EI)を示すことを目指すチャットボットにとって不可欠である。しかし、既存の研究の多くは、合成されたLLM生成データに依存しており、現実世界の会話パターンに関する疑問を残している。このギャップを埋めるため、我々はREALTALKを導入する。これは21日間にわたる実際のメッセージングアプリの対話コーパスであり、本物の人間のやり取りに対する直接的なベンチマークを提供する。
まず、データセット分析を行い、EI属性とペルソナの一貫性に焦点を当て、現実世界の対話がもたらす独特の課題を理解する。LLM生成の会話と比較することで、多様な感情表現やペルソナの安定性の変動など、合成対話では捉えられない重要な違いを明らかにする。
これらの知見に基づき、2つのベンチマークタスクを導入する:(1)特定のユーザーの代わりに、過去の対話文脈を基に会話を続けるペルソナシミュレーション;(2)過去のやり取りの長期記憶を必要とする特定の質問に答えるメモリプロービング。
我々の調査結果は、モデルが対話履歴のみからユーザーをシミュレートするのに苦労する一方、特定のユーザーのチャットに微調整を行うことでペルソナの模倣が改善されることを明らかにしている。さらに、既存のモデルは、現実世界の会話における長期文脈の想起と活用に大きな課題を抱えている。
English
Long-term, open-domain dialogue capabilities are essential for chatbots
aiming to recall past interactions and demonstrate emotional intelligence (EI).
Yet, most existing research relies on synthetic, LLM-generated data, leaving
open questions about real-world conversational patterns. To address this gap,
we introduce REALTALK, a 21-day corpus of authentic messaging app dialogues,
providing a direct benchmark against genuine human interactions.
We first conduct a dataset analysis, focusing on EI attributes and persona
consistency to understand the unique challenges posed by real-world dialogues.
By comparing with LLM-generated conversations, we highlight key differences,
including diverse emotional expressions and variations in persona stability
that synthetic dialogues often fail to capture.
Building on these insights, we introduce two benchmark tasks: (1) persona
simulation where a model continues a conversation on behalf of a specific user
given prior dialogue context; and (2) memory probing where a model answers
targeted questions requiring long-term memory of past interactions.
Our findings reveal that models struggle to simulate a user solely from
dialogue history, while fine-tuning on specific user chats improves persona
emulation. Additionally, existing models face significant challenges in
recalling and leveraging long-term context within real-world conversations.Summary
AI-Generated Summary