질문할 것인가, 추정할 것인가? 코딩 에이전트의 불확실성 인식 명확화 요청
Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents
March 27, 2026
저자: Nicholas Edwards, Sebastian Schuster
cs.AI
초록
대규모 언어 모델(LLM) 에이전트가 소프트웨어 공학과 같은 개방형 도메인에 점점 더 많이 배포됨에 따라, 중요한 맥락이 누락된 불완전하게 명시된 지시를 빈번히 접하게 됩니다. 인간 개발자는 명확화 질문을 통해 자연스럽게 이러한 불완전한 명세를 해결하지만, 현재의 에이전트는 대부분 자율 실행에 최적화되어 있습니다. 본 연구에서는 SWE-bench Verified의 불완전 명세 변형 버전에서 LLM 에이전트의 명확화 추구 능력을 체계적으로 평가합니다. 우리는 불완전 명세 감지와 코드 실행을 명시적으로 분리하는 불확실성 인지 다중 에이전트 구조를 제안합니다. 결과에 따르면, OpenHands + Claude Sonnet 4.5를 사용하는 이 다중 에이전트 시스템은 69.40%의 작업 해결률을 달성하여 표준 단일 에이전트 설정(61.20%)을 크게 능가하며, 완전히 명시된 지시를 받는 에이전트와의 성능 격차를 줄였습니다. 더 나아가, 다중 에이전트 시스템은 잘 보정된 불확실성을 나타내며 단순 작업에서는 질의를 절약하는 동시에 더 복잡한 문제에서는 적극적으로 정보를 추구하는 것으로 나타났습니다. 이러한 결과는 현재 모델이 능동적인 협력자로 전환될 수 있음을 시사하며, 에이전트가 실제 불완전 명세 작업에서 누락된 정보를 도출하기 위해 언제 질문해야 하는지를 독자적으로 인식할 수 있음을 보여줍니다.
English
As Large Language Model (LLM) agents are increasingly deployed in open-ended domains like software engineering, they frequently encounter underspecified instructions that lack crucial context. While human developers naturally resolve underspecification by asking clarifying questions, current agents are largely optimized for autonomous execution. In this work, we systematically evaluate the clarification-seeking abilities of LLM agents on an underspecified variant of SWE-bench Verified. We propose an uncertainty-aware multi-agent scaffold that explicitly decouples underspecification detection from code execution. Our results demonstrate that this multi-agent system using OpenHands + Claude Sonnet 4.5 achieves a 69.40% task resolve rate, significantly outperforming a standard single-agent setup (61.20%) and closing the performance gap with agents operating on fully specified instructions. Furthermore, we find that the multi-agent system exhibits well-calibrated uncertainty, conserving queries on simple tasks while proactively seeking information on more complex issues. These findings indicate that current models can be turned into proactive collaborators, where agents independently recognize when to ask questions to elicit missing information in real-world, underspecified tasks.