Perguntar ou Assumir? Busca de Esclarecimentos Consciente da Incerteza em Agentes de Programação

Resumo

À medida que os agentes de Modelos de Linguagem de Grande Porte (LLMs) são cada vez mais implantados em domínios abertos, como a engenharia de software, eles frequentemente encontram instruções subespecificadas que carecem de contexto crucial. Enquanto desenvolvedores humanos resolvem naturalmente a subespecificação fazendo perguntas de esclarecimento, os agentes atuais são amplamente otimizados para execução autônoma. Neste trabalho, avaliamos sistematicamente as capacidades de busca de esclarecimento de agentes LLM em uma variante subespecificada do SWE-bench Verified. Propomos um arcabouço multiagente consciente da incerteza que desacopla explicitamente a detecção de subespecificação da execução de código. Nossos resultados demonstram que este sistema multiagente usando OpenHands + Claude Sonnet 4.5 atinge uma taxa de resolução de tarefas de 69,40%, superando significativamente uma configuração padrão de agente único (61,20%) e reduzindo a lacuna de desempenho com agentes que operam em instruções totalmente especificadas. Além disso, descobrimos que o sistema multiagente exibe incerteza bem calibrada, conservando consultas em tarefas simples enquanto busca proativamente informações em questões mais complexas. Essas descobertas indicam que os modelos atuais podem ser transformados em colaboradores proativos, onde os agentes reconhecem independentemente quando fazer perguntas para eliciar informações faltantes em tarefas reais e subespecificadas.

English

As Large Language Model (LLM) agents are increasingly deployed in open-ended domains like software engineering, they frequently encounter underspecified instructions that lack crucial context. While human developers naturally resolve underspecification by asking clarifying questions, current agents are largely optimized for autonomous execution. In this work, we systematically evaluate the clarification-seeking abilities of LLM agents on an underspecified variant of SWE-bench Verified. We propose an uncertainty-aware multi-agent scaffold that explicitly decouples underspecification detection from code execution. Our results demonstrate that this multi-agent system using OpenHands + Claude Sonnet 4.5 achieves a 69.40% task resolve rate, significantly outperforming a standard single-agent setup (61.20%) and closing the performance gap with agents operating on fully specified instructions. Furthermore, we find that the multi-agent system exhibits well-calibrated uncertainty, conserving queries on simple tasks while proactively seeking information on more complex issues. These findings indicate that current models can be turned into proactive collaborators, where agents independently recognize when to ask questions to elicit missing information in real-world, underspecified tasks.

Perguntar ou Assumir? Busca de Esclarecimentos Consciente da Incerteza em Agentes de Programação

Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

Resumo

Support