언제 행동하고 언제 기다릴 것인가: 작업 지향 대화에서 의도 실행 가능성을 위한 구조적 궤적 모델링
WHEN TO ACT, WHEN TO WAIT: Modeling Structural Trajectories for Intent Triggerability in Task-Oriented Dialogue
June 2, 2025
저자: Yaoyao Qian, Jindan Huang, Yuanli Wang, Simon Yu, Kyrie Zhixuan Zhou, Jiayuan Mao, Mingfu Liang, Hanhan Zhou
cs.AI
초록
작업 지향 대화 시스템은 사용자 발화가 의미론적으로 완전해 보이지만 적절한 시스템 동작을 위한 필수 구조적 정보가 부족할 때 종종 어려움을 겪습니다. 이는 사용자가 자신의 필요를 완전히 이해하지 못하는 반면, 시스템은 정확한 의도 정의를 요구하기 때문에 발생합니다. 현재의 LLM 기반 에이전트는 언어적으로 완전한 표현과 맥락적으로 트리거 가능한 표현을 효과적으로 구분하지 못하며, 협력적 의도 형성을 위한 프레임워크가 부족합니다. 우리는 STORM을 제안합니다. STORM은 UserLLM(내부 전체 접근)과 AgentLLM(관찰 가능한 행동만) 간의 대화를 통해 비대칭 정보 역학을 모델링하는 프레임워크입니다. STORM은 표현 궤적과 잠재적 인지 전환을 포착한 주석이 달린 코퍼스를 생성하여 협력적 이해 발전의 체계적인 분석을 가능하게 합니다. 우리의 기여는 다음과 같습니다: (1) 대화 시스템에서의 비대칭 정보 처리 공식화; (2) 협력적 이해 진화를 추적하는 의도 형성 모델링; (3) 작업 성능과 함께 내부 인지 개선을 측정하는 평가 지표. 네 가지 언어 모델에 걸친 실험은 특정 시나리오에서 중간 정도의 불확실성(40-60%)이 완전한 투명성을 능가할 수 있음을 보여주며, 모델별 패턴은 인간-AI 협업에서 최적의 정보 완전성에 대한 재고를 제안합니다. 이러한 발견은 비대칭 추론 역학을 이해하는 데 기여하며, 불확실성 보정 대화 시스템 설계에 정보를 제공합니다.
English
Task-oriented dialogue systems often face difficulties when user utterances
seem semantically complete but lack necessary structural information for
appropriate system action. This arises because users frequently do not fully
understand their own needs, while systems require precise intent definitions.
Current LLM-based agents cannot effectively distinguish between linguistically
complete and contextually triggerable expressions, lacking frameworks for
collaborative intent formation. We present STORM, a framework modeling
asymmetric information dynamics through conversations between UserLLM (full
internal access) and AgentLLM (observable behavior only). STORM produces
annotated corpora capturing expression trajectories and latent cognitive
transitions, enabling systematic analysis of collaborative understanding
development. Our contributions include: (1) formalizing asymmetric information
processing in dialogue systems; (2) modeling intent formation tracking
collaborative understanding evolution; and (3) evaluation metrics measuring
internal cognitive improvements alongside task performance. Experiments across
four language models reveal that moderate uncertainty (40-60%) can outperform
complete transparency in certain scenarios, with model-specific patterns
suggesting reconsideration of optimal information completeness in human-AI
collaboration. These findings contribute to understanding asymmetric reasoning
dynamics and inform uncertainty-calibrated dialogue system design.