КОГДА ДЕЙСТВОВАТЬ, КОГДА ЖДАТЬ: Моделирование структурных траекторий для определения готовности к выполнению намерений в целеориентированном диалоге
WHEN TO ACT, WHEN TO WAIT: Modeling Structural Trajectories for Intent Triggerability in Task-Oriented Dialogue
June 2, 2025
Авторы: Yaoyao Qian, Jindan Huang, Yuanli Wang, Simon Yu, Kyrie Zhixuan Zhou, Jiayuan Mao, Mingfu Liang, Hanhan Zhou
cs.AI
Аннотация
Диалоговые системы, ориентированные на задачи, часто сталкиваются с трудностями, когда высказывания пользователей кажутся семантически завершенными, но не содержат необходимой структурной информации для выполнения соответствующих действий системы. Это происходит потому, что пользователи часто не до конца понимают свои собственные потребности, в то время как системы требуют точного определения намерений. Современные агенты на основе больших языковых моделей (LLM) не могут эффективно различать лингвистически завершенные и контекстуально активируемые выражения, не имея фреймворков для совместного формирования намерений. Мы представляем STORM — фреймворк, моделирующий динамику асимметричной информации в ходе диалогов между UserLLM (с полным внутренним доступом) и AgentLLM (с наблюдаемым поведением). STORM создает аннотированные корпуса, фиксирующие траектории выражений и скрытые когнитивные переходы, что позволяет систематически анализировать развитие совместного понимания. Наши вклады включают: (1) формализацию обработки асимметричной информации в диалоговых системах; (2) моделирование формирования намерений с отслеживанием эволюции совместного понимания; и (3) метрики оценки, измеряющие внутренние когнитивные улучшения наряду с выполнением задач. Эксперименты с четырьмя языковыми моделями показывают, что умеренная неопределенность (40-60%) может превосходить полную прозрачность в определенных сценариях, причем специфические для моделей паттерны указывают на необходимость пересмотра оптимальной полноты информации в человеко-ИИ взаимодействии. Эти результаты способствуют пониманию динамики асимметричного рассуждения и информируют проектирование диалоговых систем с калиброванной неопределенностью.
English
Task-oriented dialogue systems often face difficulties when user utterances
seem semantically complete but lack necessary structural information for
appropriate system action. This arises because users frequently do not fully
understand their own needs, while systems require precise intent definitions.
Current LLM-based agents cannot effectively distinguish between linguistically
complete and contextually triggerable expressions, lacking frameworks for
collaborative intent formation. We present STORM, a framework modeling
asymmetric information dynamics through conversations between UserLLM (full
internal access) and AgentLLM (observable behavior only). STORM produces
annotated corpora capturing expression trajectories and latent cognitive
transitions, enabling systematic analysis of collaborative understanding
development. Our contributions include: (1) formalizing asymmetric information
processing in dialogue systems; (2) modeling intent formation tracking
collaborative understanding evolution; and (3) evaluation metrics measuring
internal cognitive improvements alongside task performance. Experiments across
four language models reveal that moderate uncertainty (40-60%) can outperform
complete transparency in certain scenarios, with model-specific patterns
suggesting reconsideration of optimal information completeness in human-AI
collaboration. These findings contribute to understanding asymmetric reasoning
dynamics and inform uncertainty-calibrated dialogue system design.