Fragen oder annehmen? Ungewissheitsbewusste Klärungsanfragen bei Code-Agenten

Zusammenfassung

Da KI-Agenten auf Basis großer Sprachmodelle (Large Language Models, LLMs) zunehmend in offenen Bereichen wie der Softwareentwicklung eingesetzt werden, stoßen sie häufig auf unvollständig spezifizierte Anweisungen, denen entscheidender Kontext fehlt. Während menschliche Entwickler Unvollständigkeiten natürlicherweise durch Nachfragen klären, sind aktuelle Agenten überwiegend auf autonome Ausführung optimiert. In dieser Arbeit evaluieren wir systematisch die Fähigkeit von LLM-Agenten, Klärungen einzuholen, anhand einer unvollständig spezifizierten Variante von SWE-bench Verified. Wir schlagen ein unsicherheitsbasiertes Multi-Agenten-System vor, das die Erkennung von Unvollständigkeiten explizit von der Codeausführung entkoppelt. Unsere Ergebnisse zeigen, dass dieses Multi-Agenten-System mit OpenHands + Claude Sonnet 4.5 eine Aufgabenerfüllungsrate von 69,40 % erreicht und damit einen Standard-Einzelagenten (61,20 %) signifikant übertrifft. Es schließt zudem die Leistungslücke zu Agenten, die mit vollständig spezifizierten Anweisungen arbeiten. Darüber hinaus zeigt sich, dass das Multi-Agenten-System gut kalibrierte Unsicherheit aufweist: Es spart Anfragen bei einfachen Aufgaben ein und sucht proaktiv nach Informationen bei komplexeren Problemen. Diese Ergebnisse deuten darauf hin, dass aktuelle Modelle zu proaktiven Kollaborateuren entwickelt werden können, die eigenständig erkennen, wann sie Fragen stellen müssen, um fehlende Informationen in realen, unvollständig spezifizierten Aufgaben zu ermitteln.

English

As Large Language Model (LLM) agents are increasingly deployed in open-ended domains like software engineering, they frequently encounter underspecified instructions that lack crucial context. While human developers naturally resolve underspecification by asking clarifying questions, current agents are largely optimized for autonomous execution. In this work, we systematically evaluate the clarification-seeking abilities of LLM agents on an underspecified variant of SWE-bench Verified. We propose an uncertainty-aware multi-agent scaffold that explicitly decouples underspecification detection from code execution. Our results demonstrate that this multi-agent system using OpenHands + Claude Sonnet 4.5 achieves a 69.40% task resolve rate, significantly outperforming a standard single-agent setup (61.20%) and closing the performance gap with agents operating on fully specified instructions. Furthermore, we find that the multi-agent system exhibits well-calibrated uncertainty, conserving queries on simple tasks while proactively seeking information on more complex issues. These findings indicate that current models can be turned into proactive collaborators, where agents independently recognize when to ask questions to elicit missing information in real-world, underspecified tasks.

Fragen oder annehmen? Ungewissheitsbewusste Klärungsanfragen bei Code-Agenten

Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

Zusammenfassung

Support