Спрашивать или предполагать? Неопределенность и поиск уточнений в программирующих агентах

Аннотация

По мере того как агенты на основе больших языковых моделей (LLM) все чаще применяются в открытых областях, таких как разработка программного обеспечения, они регулярно сталкиваются с неполными инструкциями, в которых отсутствует важный контекст. В то время как люди-разработчики естественным образом устраняют неполноту спецификаций, задавая уточняющие вопросы, современные агенты в основном оптимизированы для автономного выполнения. В данной работе мы систематически оцениваем способности агентов LLM запрашивать уточнения на неполной версии набора данных SWE-bench Verified. Мы предлагаем многокомпонентную систему с несколькими агентами, учитывающую неопределенность, которая явно разделяет обнаружение неполноты спецификаций и выполнение кода. Наши результаты показывают, что такая система с использованием OpenHands + Claude Sonnet 4.5 достигает показателя успешного выполнения задач в 69,40%, что значительно превосходит стандартную однокомпонентную систему (61,20%) и сокращает разрыв в производительности с агентами, работающими с полностью определенными инструкциями. Более того, мы обнаружили, что система с несколькими агентами демонстрирует хорошо калиброванную оценку неопределенности, экономя запросы на простых задачах и активно запрашивая информацию по более сложным вопросам. Эти результаты указывают на то, что современные модели можно превратить в проактивных помощников, способных самостоятельно распознавать ситуации, когда для выполнения реальных задач с неполными спецификациями необходимо задать вопросы для получения недостающей информации.

English

As Large Language Model (LLM) agents are increasingly deployed in open-ended domains like software engineering, they frequently encounter underspecified instructions that lack crucial context. While human developers naturally resolve underspecification by asking clarifying questions, current agents are largely optimized for autonomous execution. In this work, we systematically evaluate the clarification-seeking abilities of LLM agents on an underspecified variant of SWE-bench Verified. We propose an uncertainty-aware multi-agent scaffold that explicitly decouples underspecification detection from code execution. Our results demonstrate that this multi-agent system using OpenHands + Claude Sonnet 4.5 achieves a 69.40% task resolve rate, significantly outperforming a standard single-agent setup (61.20%) and closing the performance gap with agents operating on fully specified instructions. Furthermore, we find that the multi-agent system exhibits well-calibrated uncertainty, conserving queries on simple tasks while proactively seeking information on more complex issues. These findings indicate that current models can be turned into proactive collaborators, where agents independently recognize when to ask questions to elicit missing information in real-world, underspecified tasks.

Спрашивать или предполагать? Неопределенность и поиск уточнений в программирующих агентах

Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

Аннотация

Support