Vragen of Aannemen? Onzekerheidsbewuste Verduidelijking Zoeken bij Codeer-Agents

Samenvatting

Naarmate Large Language Model (LLM)-agenten steeds vaker worden ingezet in open domeinen zoals software-engineering, krijgen zij regelmatig te maken met onvolledige instructies die essentiële context missen. Terwijl menselijke ontwikkelaars onvolledigheid vanzelfsprekend oplossen door verhelderende vragen te stellen, zijn huidige agenten grotendeels geoptimaliseerd voor autonome uitvoering. In dit werk evalueren we systematisch de vraagstellende vermogens van LLM-agenten op een onvolledige variant van SWE-bench Verified. Wij stellen een onzekerheidsbewust multi-agent raamwerk voor dat het detecteren van onvolledigheid expliciet ontkoppelt van code-uitvoering. Onze resultaten tonen aan dat dit multi-agent systeem, gebruikmakend van OpenHands + Claude Sonnet 4.5, een taakoplossingspercentage van 69,40% bereikt, wat aanzienlijk beter is dan een standaard single-agent opzet (61,20%) en de prestatiekloof verkleint met agenten die werken met volledig gespecificeerde instructies. Verder constateren we dat het multi-agent systeem goed gekalibreerde onzekerheid vertoont: het spaart vragen uit op eenvoudige taken, maar zoekt proactief naar informatie bij complexere problemen. Deze bevindingen geven aan dat huidige modellen kunnen worden omgevormd tot proactieve collaborateurs, waarbij agenten zelfstandig herkennen wanneer zij vragen moeten stellen om ontbrekende informatie op te halen in real-world, onvolledig gespecificeerde taken.

English

As Large Language Model (LLM) agents are increasingly deployed in open-ended domains like software engineering, they frequently encounter underspecified instructions that lack crucial context. While human developers naturally resolve underspecification by asking clarifying questions, current agents are largely optimized for autonomous execution. In this work, we systematically evaluate the clarification-seeking abilities of LLM agents on an underspecified variant of SWE-bench Verified. We propose an uncertainty-aware multi-agent scaffold that explicitly decouples underspecification detection from code execution. Our results demonstrate that this multi-agent system using OpenHands + Claude Sonnet 4.5 achieves a 69.40% task resolve rate, significantly outperforming a standard single-agent setup (61.20%) and closing the performance gap with agents operating on fully specified instructions. Furthermore, we find that the multi-agent system exhibits well-calibrated uncertainty, conserving queries on simple tasks while proactively seeking information on more complex issues. These findings indicate that current models can be turned into proactive collaborators, where agents independently recognize when to ask questions to elicit missing information in real-world, underspecified tasks.

Vragen of Aannemen? Onzekerheidsbewuste Verduidelijking Zoeken bij Codeer-Agents

Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

Samenvatting

Support