QUANDO AGIR, QUANDO ESPERAR: Modelando Trajetórias Estruturais para a Acionabilidade de Intenções em Diálogos Orientados a Tarefas
WHEN TO ACT, WHEN TO WAIT: Modeling Structural Trajectories for Intent Triggerability in Task-Oriented Dialogue
June 2, 2025
Autores: Yaoyao Qian, Jindan Huang, Yuanli Wang, Simon Yu, Kyrie Zhixuan Zhou, Jiayuan Mao, Mingfu Liang, Hanhan Zhou
cs.AI
Resumo
Sistemas de diálogo orientados a tarefas frequentemente enfrentam dificuldades quando as expressões dos usuários parecem semanticamente completas, mas carecem de informações estruturais necessárias para ações apropriadas do sistema. Isso ocorre porque os usuários geralmente não compreendem plenamente suas próprias necessidades, enquanto os sistemas exigem definições precisas de intenções. Os agentes baseados em LLMs atuais não conseguem distinguir efetivamente entre expressões linguisticamente completas e expressões acionáveis contextualmente, faltando estruturas para a formação colaborativa de intenções. Apresentamos o STORM, um framework que modela a dinâmica de informação assimétrica por meio de conversas entre UserLLM (acesso interno completo) e AgentLLM (apenas comportamento observável). O STORM produz corpora anotados capturando trajetórias de expressões e transições cognitivas latentes, permitindo uma análise sistemática do desenvolvimento do entendimento colaborativo. Nossas contribuições incluem: (1) formalização do processamento de informação assimétrica em sistemas de diálogo; (2) modelagem da formação de intenções acompanhando a evolução do entendimento colaborativo; e (3) métricas de avaliação que medem melhorias cognitivas internas juntamente com o desempenho da tarefa. Experimentos com quatro modelos de linguagem revelam que uma incerteza moderada (40-60%) pode superar a transparência completa em certos cenários, com padrões específicos de modelos sugerindo uma reconsideração da completude ideal de informação na colaboração humano-IA. Esses achados contribuem para a compreensão da dinâmica de raciocínio assimétrico e informam o design de sistemas de diálogo calibrados para incerteza.
English
Task-oriented dialogue systems often face difficulties when user utterances
seem semantically complete but lack necessary structural information for
appropriate system action. This arises because users frequently do not fully
understand their own needs, while systems require precise intent definitions.
Current LLM-based agents cannot effectively distinguish between linguistically
complete and contextually triggerable expressions, lacking frameworks for
collaborative intent formation. We present STORM, a framework modeling
asymmetric information dynamics through conversations between UserLLM (full
internal access) and AgentLLM (observable behavior only). STORM produces
annotated corpora capturing expression trajectories and latent cognitive
transitions, enabling systematic analysis of collaborative understanding
development. Our contributions include: (1) formalizing asymmetric information
processing in dialogue systems; (2) modeling intent formation tracking
collaborative understanding evolution; and (3) evaluation metrics measuring
internal cognitive improvements alongside task performance. Experiments across
four language models reveal that moderate uncertainty (40-60%) can outperform
complete transparency in certain scenarios, with model-specific patterns
suggesting reconsideration of optimal information completeness in human-AI
collaboration. These findings contribute to understanding asymmetric reasoning
dynamics and inform uncertainty-calibrated dialogue system design.