CUÁNDO ACTUAR, CUÁNDO ESPERAR: Modelado de Trayectorias Estructurales para la Activación de Intenciones en Diálogos Orientados a Tareas
WHEN TO ACT, WHEN TO WAIT: Modeling Structural Trajectories for Intent Triggerability in Task-Oriented Dialogue
June 2, 2025
Autores: Yaoyao Qian, Jindan Huang, Yuanli Wang, Simon Yu, Kyrie Zhixuan Zhou, Jiayuan Mao, Mingfu Liang, Hanhan Zhou
cs.AI
Resumen
Los sistemas de diálogo orientados a tareas a menudo enfrentan dificultades cuando las expresiones de los usuarios parecen semánticamente completas pero carecen de la información estructural necesaria para una acción adecuada del sistema. Esto ocurre porque los usuarios frecuentemente no comprenden plenamente sus propias necesidades, mientras que los sistemas requieren definiciones precisas de intenciones. Los agentes actuales basados en LLM no pueden distinguir efectivamente entre expresiones lingüísticamente completas y aquellas que pueden ser activadas contextualmente, careciendo de marcos para la formación colaborativa de intenciones. Presentamos STORM, un marco que modela la dinámica de información asimétrica a través de conversaciones entre UserLLM (acceso interno completo) y AgentLLM (solo comportamiento observable). STORM produce corpus anotados que capturan trayectorias de expresión y transiciones cognitivas latentes, permitiendo un análisis sistemático del desarrollo de la comprensión colaborativa. Nuestras contribuciones incluyen: (1) formalizar el procesamiento de información asimétrica en sistemas de diálogo; (2) modelar la formación de intenciones rastreando la evolución de la comprensión colaborativa; y (3) métricas de evaluación que miden mejoras cognitivas internas junto con el desempeño en tareas. Experimentos en cuatro modelos de lenguaje revelan que una incertidumbre moderada (40-60%) puede superar la transparencia completa en ciertos escenarios, con patrones específicos del modelo que sugieren reconsiderar la completitud óptima de la información en la colaboración humano-IA. Estos hallazgos contribuyen a comprender la dinámica del razonamiento asimétrico e informan el diseño de sistemas de diálogo calibrados para la incertidumbre.
English
Task-oriented dialogue systems often face difficulties when user utterances
seem semantically complete but lack necessary structural information for
appropriate system action. This arises because users frequently do not fully
understand their own needs, while systems require precise intent definitions.
Current LLM-based agents cannot effectively distinguish between linguistically
complete and contextually triggerable expressions, lacking frameworks for
collaborative intent formation. We present STORM, a framework modeling
asymmetric information dynamics through conversations between UserLLM (full
internal access) and AgentLLM (observable behavior only). STORM produces
annotated corpora capturing expression trajectories and latent cognitive
transitions, enabling systematic analysis of collaborative understanding
development. Our contributions include: (1) formalizing asymmetric information
processing in dialogue systems; (2) modeling intent formation tracking
collaborative understanding evolution; and (3) evaluation metrics measuring
internal cognitive improvements alongside task performance. Experiments across
four language models reveal that moderate uncertainty (40-60%) can outperform
complete transparency in certain scenarios, with model-specific patterns
suggesting reconsideration of optimal information completeness in human-AI
collaboration. These findings contribute to understanding asymmetric reasoning
dynamics and inform uncertainty-calibrated dialogue system design.