Demander ou supposer ? Recherche de clarifications consciente de l'incertitude dans les agents de programmation

Résumé

Alors que les agents de modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des domaines ouverts comme l'ingénierie logicielle, ils rencontrent fréquemment des instructions sous-spécifiées qui manquent de contexte crucial. Alors que les développeurs humains résolvent naturellement la sous-spécification en posant des questions de clarification, les agents actuels sont largement optimisés pour une exécution autonome. Dans ce travail, nous évaluons systématiquement les capacités de recherche de clarification des agents LLM sur une variante sous-spécifiée de SWE-bench Verified. Nous proposons une architecture multi-agents consciente de l'incertitude qui découple explicitement la détection de la sous-spécification de l'exécution du code. Nos résultats démontrent que ce système multi-agents utilisant OpenHands + Claude Sonnet 4.5 atteint un taux de résolution de tâches de 69,40 %, surpassant significativement une configuration mono-agent standard (61,20 %) et comblant l'écart de performance avec les agents opérant sur des instructions pleinement spécifiées. De plus, nous constatons que le système multi-agents présente une incertitude bien calibrée, économisant les requêtes sur les tâches simples tout en recherchant activement des informations sur les problèmes plus complexes. Ces résultats indiquent que les modèles actuels peuvent être transformés en collaborateurs proactifs, où les agents reconnaissent indépendamment quand poser des questions pour obtenir les informations manquantes dans des tâches réelles sous-spécifiées.

English

As Large Language Model (LLM) agents are increasingly deployed in open-ended domains like software engineering, they frequently encounter underspecified instructions that lack crucial context. While human developers naturally resolve underspecification by asking clarifying questions, current agents are largely optimized for autonomous execution. In this work, we systematically evaluate the clarification-seeking abilities of LLM agents on an underspecified variant of SWE-bench Verified. We propose an uncertainty-aware multi-agent scaffold that explicitly decouples underspecification detection from code execution. Our results demonstrate that this multi-agent system using OpenHands + Claude Sonnet 4.5 achieves a 69.40% task resolve rate, significantly outperforming a standard single-agent setup (61.20%) and closing the performance gap with agents operating on fully specified instructions. Furthermore, we find that the multi-agent system exhibits well-calibrated uncertainty, conserving queries on simple tasks while proactively seeking information on more complex issues. These findings indicate that current models can be turned into proactive collaborators, where agents independently recognize when to ask questions to elicit missing information in real-world, underspecified tasks.

Demander ou supposer ? Recherche de clarifications consciente de l'incertitude dans les agents de programmation

Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

Résumé

Support