いつ行動し、いつ待つべきか:タスク指向対話における意図のトリガー可能性のための構造的軌跡のモデリング
WHEN TO ACT, WHEN TO WAIT: Modeling Structural Trajectories for Intent Triggerability in Task-Oriented Dialogue
June 2, 2025
著者: Yaoyao Qian, Jindan Huang, Yuanli Wang, Simon Yu, Kyrie Zhixuan Zhou, Jiayuan Mao, Mingfu Liang, Hanhan Zhou
cs.AI
要旨
タスク指向型対話システムは、ユーザーの発話が意味的には完結しているものの、適切なシステム動作に必要な構造的情報が欠けている場合にしばしば困難に直面します。これは、ユーザーが自身のニーズを完全に理解していない一方で、システムが正確な意図定義を必要とするためです。現在のLLMベースのエージェントは、言語的に完結した表現と文脈的にトリガー可能な表現を効果的に区別することができず、協調的な意図形成のためのフレームワークを欠いています。本論文では、UserLLM(完全な内部アクセス)とAgentLLM(観測可能な行動のみ)の間の対話を通じて非対称な情報ダイナミクスをモデル化するフレームワークSTORMを提案します。STORMは、表現の軌跡と潜在的な認知遷移を捉えた注釈付きコーパスを生成し、協調的理解の発展を体系的に分析することを可能にします。私たちの貢献は以下の通りです:(1) 対話システムにおける非対称な情報処理の形式化、(2) 協調的理解の進化を追跡する意図形成のモデル化、(3) タスクパフォーマンスと並行して内部的な認知改善を測定する評価指標。4つの言語モデルにわたる実験では、中程度の不確実性(40-60%)が特定のシナリオにおいて完全な透明性を上回ることが明らかになり、モデル固有のパターンが人間とAIの協働における最適な情報完全性の再考を示唆しています。これらの発見は、非対称な推論ダイナミクスの理解に貢献し、不確実性を調整した対話システム設計に情報を提供します。
English
Task-oriented dialogue systems often face difficulties when user utterances
seem semantically complete but lack necessary structural information for
appropriate system action. This arises because users frequently do not fully
understand their own needs, while systems require precise intent definitions.
Current LLM-based agents cannot effectively distinguish between linguistically
complete and contextually triggerable expressions, lacking frameworks for
collaborative intent formation. We present STORM, a framework modeling
asymmetric information dynamics through conversations between UserLLM (full
internal access) and AgentLLM (observable behavior only). STORM produces
annotated corpora capturing expression trajectories and latent cognitive
transitions, enabling systematic analysis of collaborative understanding
development. Our contributions include: (1) formalizing asymmetric information
processing in dialogue systems; (2) modeling intent formation tracking
collaborative understanding evolution; and (3) evaluation metrics measuring
internal cognitive improvements alongside task performance. Experiments across
four language models reveal that moderate uncertainty (40-60%) can outperform
complete transparency in certain scenarios, with model-specific patterns
suggesting reconsideration of optimal information completeness in human-AI
collaboration. These findings contribute to understanding asymmetric reasoning
dynamics and inform uncertainty-calibrated dialogue system design.