尋ねるか、仮定するか? コード生成エージェントにおける不確実性を考慮した確認プロセス
Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents
March 27, 2026
著者: Nicholas Edwards, Sebastian Schuster
cs.AI
要旨
大規模言語モデル(LLM)エージェントがソフトウェアエンジニアリングのような開放領域で展開されるにつれ、重要な文脈が欠落した未詳細化指示に頻繁に遭遇するようになっている。人間の開発者が未詳細化を解消する際には自然に明確化質問を行うが、現行のエージェントは自律的な実行に最適化されている。本研究では、SWE-bench Verifiedの未詳細化バリアントにおいて、LLMエージェントの明確化質問能力を体系的に評価する。我々は、未詳細化の検出とコード実行を明示的に分離する不確実性認識型マルチエージェント・スキャフォールドを提案する。実験結果から、OpenHands + Claude Sonnet 4.5を用いたこのマルチエージェントシステムが69.40%のタスク解決率を達成し、標準的なシングルエージェント構成(61.20%)を大幅に上回り、完全に詳細化された指示で動作するエージェントとの性能差を埋めることが示された。さらに、マルチエージェントシステムは較正された不確実性を示し、単純なタスクでは質問を抑制しながら、複雑な課題では積極的に情報収集を行うことが分かった。これらの知見は、現行のモデルが積極的な協調者へ転換可能であり、実世界の未詳細化タスクにおいてエージェントが自律的に質問すべきタイミングを認識できることを示唆している。
English
As Large Language Model (LLM) agents are increasingly deployed in open-ended domains like software engineering, they frequently encounter underspecified instructions that lack crucial context. While human developers naturally resolve underspecification by asking clarifying questions, current agents are largely optimized for autonomous execution. In this work, we systematically evaluate the clarification-seeking abilities of LLM agents on an underspecified variant of SWE-bench Verified. We propose an uncertainty-aware multi-agent scaffold that explicitly decouples underspecification detection from code execution. Our results demonstrate that this multi-agent system using OpenHands + Claude Sonnet 4.5 achieves a 69.40% task resolve rate, significantly outperforming a standard single-agent setup (61.20%) and closing the performance gap with agents operating on fully specified instructions. Furthermore, we find that the multi-agent system exhibits well-calibrated uncertainty, conserving queries on simple tasks while proactively seeking information on more complex issues. These findings indicate that current models can be turned into proactive collaborators, where agents independently recognize when to ask questions to elicit missing information in real-world, underspecified tasks.