HiL-Bench (Human-in-Loop Benchmark): Weten agenten wanneer ze om hulp moeten vragen?

Samenvatting

Frontline coderende AI-agenten lossen complexe taken op wanneer ze volledige context krijgen, maar falen wanneer specificaties onvolledig of dubbelzinnig zijn. Het knelpunt is niet de ruwe capaciteit, maar het beoordelingsvermogen: weten wanneer autonoom te handelen en wanneer om hulp te vragen. Huidige benchmarks zijn blind voor deze faalmodus. Zij verstrekken eenduidige, gedetailleerde instructies en belonen alleen uitvoeringsnauwkeurigheid, waardoor een agent die een ontbrekende vereiste gelukkig raadt, dezelfde score krijgt als een agent die zou hebben gevraagd om zekerheid. Wij presenteren HiL-Bench (Human-in-the-Loop Benchmark) om deze vaardigheid van selectieve escalatie te meten. Elke taak bevat door mensen gevalideerde blokkades (ontbrekende informatie, vage verzoeken, tegenstrijdige informatie) die alleen naar voren komen door progressieve verkenning, niet door voorafgaande inspectie. Onze kernmetriek, Ask-F1, het harmonisch gemiddelde van vraagprecisie en blokkade-recall, vat de spanning tussen overmatig vragen en stilzwijgend gissen; de structuur ervan voorkomt architectonisch misbruik door vraagspam. Evaluatie in de domeinen Software Engineering (SWE) en tekst-naar-SQL onthult een grote, universele kloof in het beoordelingsvermogen: geen enkel frontlinie-model herstelt meer dan een fractie van zijn prestaties bij volledige informatie wanneer het zelf moet beslissen of het moet vragen. Foutenanalyse identificeert drie belangrijke hulpzoekpatronen: overmoedige verkeerde overtuigingen zonder kloopdetectie; hoge onzekerheidsdetectie maar aanhoudende fouten; brede, onnauwkeurige escalatie zonder zelfcorrectie. Deze consistente patronen bevestigen dat slecht hulp zoeken een modelniveau-fout is, niet taakspecifiek. RL-training met een gevormde Ask-F1 beloning laat zien dat beoordelingsvermogen trainbaar is: een 32B-model verbetert zowel de kwaliteit van het hulp zoeken als de taakslaagpercentages, waarbij de winst overdraagbaar is tussen domeinen. Het model leert geen domeinspecifieke heuristieken voor wanneer het moet vragen; het leert om onoplosbare onzekerheid te detecteren en ernaar te handelen.

English

Frontier coding agents solve complex tasks when given complete context but collapse when specifications are incomplete or ambiguous. The bottleneck is not raw capability, but judgment: knowing when to act autonomously and when to ask for help. Current benchmarks are blind to this failure mode. They supply unambiguous detailed instructions and solely reward execution correctness, so an agent that makes a lucky guess for a missing requirement will score identically to one that would have asked to be certain. We present HiL-Bench (Human-in-the-Loop Benchmark) to measure this selective escalation skill. Each task contains human-validated blockers (missing information, ambiguous requests, contradictory information) that surface only through progressive exploration, not upfront inspection. Our core metric, Ask-F1, the harmonic mean of question precision and blocker recall, captures the tension between over-asking and silent guessing; its structure architecturally prevents gaming through question spam. Evaluation across SWE and text-to-SQL domains reveals a large universal judgment gap: no frontier model recovers more than a fraction of its full-information performance when deciding whether to ask. Failure analysis identifies three key help-seeking patterns: overconfident wrong beliefs with no gap detection; high uncertainty detection yet persistent errors; broad, imprecise escalation without self-correction. These consistent patterns confirm poor help-seeking is a model-level flaw, not task-specific. RL training on shaped Ask-F1 reward shows judgment is trainable: a 32B model improves both help-seeking quality and task pass rate, with gains that transfer across domains. The model does not learn domain-specific heuristics for when to ask; it learns to detect unresolvable uncertainty and act on it.

HiL-Bench (Human-in-Loop Benchmark): Weten agenten wanneer ze om hulp moeten vragen?

HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

Samenvatting

Support