WANN HANDELN, WANN WARTEN: Modellierung struktureller Trajektorien für die Auslösbarkeit von Intentionen in aufgabenorientierten Dialogen
WHEN TO ACT, WHEN TO WAIT: Modeling Structural Trajectories for Intent Triggerability in Task-Oriented Dialogue
June 2, 2025
Autoren: Yaoyao Qian, Jindan Huang, Yuanli Wang, Simon Yu, Kyrie Zhixuan Zhou, Jiayuan Mao, Mingfu Liang, Hanhan Zhou
cs.AI
Zusammenfassung
Aufgabenorientierte Dialogsysteme stehen oft vor Herausforderungen, wenn Benutzeräußerungen semantisch vollständig erscheinen, aber die notwendigen strukturellen Informationen für angemessene Systemaktionen fehlen. Dies ergibt sich, weil Benutzer ihre eigenen Bedürfnisse häufig nicht vollständig verstehen, während Systeme präzise Intent-Definitionen benötigen. Aktuelle LLM-basierte Agenten können nicht effektiv zwischen linguistisch vollständigen und kontextuell auslösbaren Ausdrücken unterscheiden und verfügen nicht über Rahmenwerke für die kollaborative Intent-Bildung. Wir stellen STORM vor, ein Framework, das asymmetrische Informationsdynamiken durch Gespräche zwischen UserLLM (vollständiger interner Zugriff) und AgentLLM (nur beobachtbares Verhalten) modelliert. STORM erzeugt annotierte Korpora, die Ausdrucksverläufe und latente kognitive Übergänge erfassen und eine systematische Analyse der Entwicklung des kollaborativen Verständnisses ermöglichen. Unsere Beiträge umfassen: (1) die Formalisierung der asymmetrischen Informationsverarbeitung in Dialogsystemen; (2) die Modellierung der Intent-Bildung, die die Entwicklung des kollaborativen Verständnisses verfolgt; und (3) Evaluationsmetriken, die interne kognitive Verbesserungen neben der Aufgabenleistung messen. Experimente mit vier Sprachmodellen zeigen, dass moderate Unsicherheit (40-60%) in bestimmten Szenarien vollständige Transparenz übertreffen kann, wobei modellspezifische Muster eine Überprüfung der optimalen Informationsvollständigkeit in der Mensch-KI-Kollaboration nahelegen. Diese Erkenntnisse tragen zum Verständnis der asymmetrischen Denkdynamiken bei und informieren das Design von Unsicherheits-kalibrierten Dialogsystemen.
English
Task-oriented dialogue systems often face difficulties when user utterances
seem semantically complete but lack necessary structural information for
appropriate system action. This arises because users frequently do not fully
understand their own needs, while systems require precise intent definitions.
Current LLM-based agents cannot effectively distinguish between linguistically
complete and contextually triggerable expressions, lacking frameworks for
collaborative intent formation. We present STORM, a framework modeling
asymmetric information dynamics through conversations between UserLLM (full
internal access) and AgentLLM (observable behavior only). STORM produces
annotated corpora capturing expression trajectories and latent cognitive
transitions, enabling systematic analysis of collaborative understanding
development. Our contributions include: (1) formalizing asymmetric information
processing in dialogue systems; (2) modeling intent formation tracking
collaborative understanding evolution; and (3) evaluation metrics measuring
internal cognitive improvements alongside task performance. Experiments across
four language models reveal that moderate uncertainty (40-60%) can outperform
complete transparency in certain scenarios, with model-specific patterns
suggesting reconsideration of optimal information completeness in human-AI
collaboration. These findings contribute to understanding asymmetric reasoning
dynamics and inform uncertainty-calibrated dialogue system design.