HiL-Bench (Human-in-Loop-Benchmark): Wissen Agenten, wann sie um Hilfe bitten müssen?
HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?
April 29, 2026
Autoren: Mohamed Elfeki, Tu Trinh, Kelvin Luu, Guangze Luo, Nathan Hunt, Ernesto Montoya, Nandan Marwaha, Yannis He, Charles Wang, Fernando Crabedo, Alessa Castilo, Bing Liu
cs.AI
Zusammenfassung
Frontier-Codierungsagenten lösen komplexe Aufgaben, wenn sie vollständigen Kontext erhalten, scheitern jedoch, wenn die Spezifikationen unvollständig oder mehrdeutig sind. Der Engpass ist nicht die reine Fähigkeit, sondern das Urteilsvermögen: zu wissen, wann autonom gehandelt werden muss und wann um Hilfe gebeten werden sollte. Aktuelle Benchmarks sind gegenüber diesem Fehlermodus blind. Sie liefern eindeutige, detaillierte Anweisungen und belohnen ausschließlich die Ausführungskorrektheit, sodass ein Agent, der eine fehlende Anforderung richtig errät, die gleiche Punktzahl erhält wie einer, der nachgefragt hätte, um sicherzugehen.
Wir stellen HiL-Bench (Human-in-the-Loop Benchmark) vor, um diese Fähigkeit zur selektiven Eskalation zu messen. Jede Aufgabe enthält menschlich validierte Blockaden (fehlende Informationen, mehrdeutige Anfragen, widersprüchliche Informationen), die sich erst durch fortschreitende Exploration und nicht durch vorabige Prüfung offenbaren. Unser Kernmetrik, Ask-F1, das harmonische Mittel aus Fragepräzision und Blockaden-Trefferquote, erfasst die Spannung zwischen übermäßigem Nachfragen und stillem Raten; ihre Struktur verhindert architektonisch das Manipulieren durch Frage-Spam.
Die Evaluierung in den Domänen Softwareentwicklung (SWE) und Text-zu-SQL zeigt eine große, universelle Urteilslücke: Kein Frontier-Modell erreicht mehr als einen Bruchteil seiner Leistung bei vollständiger Information, wenn es entscheiden muss, ob es nachfragen soll. Die Fehleranalyse identifiziert drei zentrale Hilfesuchmuster: übermäßig zuversichtliche falsche Überzeugungen ohne Lückenerkennung; hohe Unsicherheitserkennung bei anhaltenden Fehlern; breite, unpräzise Eskalation ohne Selbstkorrektur. Diese konsistenten Muster bestätigen, dass mangelhaftes Hilfesuchen ein modellbasierter Fehler und nicht aufgabenspezifisch ist. RL-Training mit geformter Ask-F1-Belohnung zeigt, dass Urteilsvermögen trainierbar ist: Ein 32B-Modell verbessert sowohl die Qualität des Hilfesuchens als auch die Aufgabenbestehquote, wobei die Gewinne domänenübergreifend transferieren. Das Modell lernt keine domänenspezifischen Heuristiken für den Nachfragezeitpunkt; es lernt, unauflösbare Unsicherheit zu erkennen und darauf zu reagieren.
English
Frontier coding agents solve complex tasks when given complete context but collapse when specifications are incomplete or ambiguous. The bottleneck is not raw capability, but judgment: knowing when to act autonomously and when to ask for help. Current benchmarks are blind to this failure mode. They supply unambiguous detailed instructions and solely reward execution correctness, so an agent that makes a lucky guess for a missing requirement will score identically to one that would have asked to be certain.
We present HiL-Bench (Human-in-the-Loop Benchmark) to measure this selective escalation skill. Each task contains human-validated blockers (missing information, ambiguous requests, contradictory information) that surface only through progressive exploration, not upfront inspection. Our core metric, Ask-F1, the harmonic mean of question precision and blocker recall, captures the tension between over-asking and silent guessing; its structure architecturally prevents gaming through question spam.
Evaluation across SWE and text-to-SQL domains reveals a large universal judgment gap: no frontier model recovers more than a fraction of its full-information performance when deciding whether to ask. Failure analysis identifies three key help-seeking patterns: overconfident wrong beliefs with no gap detection; high uncertainty detection yet persistent errors; broad, imprecise escalation without self-correction. These consistent patterns confirm poor help-seeking is a model-level flaw, not task-specific. RL training on shaped Ask-F1 reward shows judgment is trainable: a 32B model improves both help-seeking quality and task pass rate, with gains that transfer across domains. The model does not learn domain-specific heuristics for when to ask; it learns to detect unresolvable uncertainty and act on it.