¿Preguntar o Asumir? Búsqueda de Aclaraciones Consciente de la Incertidumbre en Agentes de Programación
Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents
March 27, 2026
Autores: Nicholas Edwards, Sebastian Schuster
cs.AI
Resumen
A medida que los agentes de modelos de lenguaje grande (LLM) se despliegan cada vez más en dominios abiertos como la ingeniería de software, frecuentemente encuentran instrucciones subespecificadas que carecen de contexto crucial. Mientras que los desarrolladores humanos resuelven naturalmente la subespecificación haciendo preguntas aclaratorias, los agentes actuales están optimizados principalmente para la ejecución autónoma. En este trabajo, evaluamos sistemáticamente las capacidades de búsqueda de aclaraciones de los agentes LLM en una variante subespecificada de SWE-bench Verified. Proponemos un andamiaje multiagente consciente de la incertidumbre que desacopla explícitamente la detección de subespecificación de la ejecución de código. Nuestros resultados demuestran que este sistema multiagente que utiliza OpenHands + Claude Sonnet 4.5 logra una tasa de resolución de tareas del 69,40%, superando significativamente a una configuración estándar de agente único (61,20%) y cerrando la brecha de rendimiento con los agentes que operan con instrucciones completamente especificadas. Además, encontramos que el sistema multiagente exhibe una incertidumbre bien calibrada, conservando consultas en tareas simples mientras busca información de manera proactiva en problemas más complejos. Estos hallazgos indican que los modelos actuales pueden convertirse en colaboradores proactivos, donde los agentes reconocen independientemente cuándo hacer preguntas para obtener información faltante en tareas reales subespecificadas.
English
As Large Language Model (LLM) agents are increasingly deployed in open-ended domains like software engineering, they frequently encounter underspecified instructions that lack crucial context. While human developers naturally resolve underspecification by asking clarifying questions, current agents are largely optimized for autonomous execution. In this work, we systematically evaluate the clarification-seeking abilities of LLM agents on an underspecified variant of SWE-bench Verified. We propose an uncertainty-aware multi-agent scaffold that explicitly decouples underspecification detection from code execution. Our results demonstrate that this multi-agent system using OpenHands + Claude Sonnet 4.5 achieves a 69.40% task resolve rate, significantly outperforming a standard single-agent setup (61.20%) and closing the performance gap with agents operating on fully specified instructions. Furthermore, we find that the multi-agent system exhibits well-calibrated uncertainty, conserving queries on simple tasks while proactively seeking information on more complex issues. These findings indicate that current models can be turned into proactive collaborators, where agents independently recognize when to ask questions to elicit missing information in real-world, underspecified tasks.