HiL-Bench(ヒューマン・イン・ザ・ループ・ベンチマーク):エージェントは助けを求めるタイミングを理解しているか?
HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?
April 29, 2026
著者: Mohamed Elfeki, Tu Trinh, Kelvin Luu, Guangze Luo, Nathan Hunt, Ernesto Montoya, Nandan Marwaha, Yannis He, Charles Wang, Fernando Crabedo, Alessa Castilo, Bing Liu
cs.AI
要旨
最先端のコーディングエージェントは、完全な文脈が与えられれば複雑なタスクを解決するが、仕様が不完全または曖昧な場合には機能不全に陥る。ボトルネックは生の能力ではなく、判断力、すなわち自律的に行動すべき時と助力を求めるべき時を見極める能力にある。現在のベンチマークはこの失敗モードを検知できない。それらは曖昧さのない詳細な指示を提供し、実行の正確性のみを評価するため、不足している要件を幸運にも推測したエージェントと、確実にするために質問したであろうエージェントが同じスコアを得てしまう。
我々は、この選択的エスカレーションスキルを測定するため、HiL-Bench(Human-in-the-Loop Benchmark)を提案する。各タスクには、事前の検査ではなく漸進的な探索を通じてのみ表面化する、人間によって検証されたブロッカー(欠落情報、曖昧な要求、矛盾した情報)が含まれる。中核的な指標であるAsk-F1(質問の精度とブロッカー回収率の調和平均)は、過剰な質問と沈黙した推測の間の緊張関係を捉え、その構造上、質問のスパムによるゲーミングを防ぐ。
ソフトウェアエンジニアリングおよびテキストto-SQL領域での評価は、大きな普遍的な判断ギャップを明らかにした:助力を求めるかどうかを判断する際、最先端モデルといえども、完全な情報が与えられた場合の性能のごく一部しか回復できない。失敗分析により、3つの主要な助力要請パターンが特定された:ギャップを検知しない過信的な誤った信念、高い不確実性の検知にも関わらず持続する誤り、自己修正を伴わない広範で不正確なエスカレーションである。これらの一貫したパターンは、不適切な助力要請がタスク固有のものではなく、モデルレベルの欠陥であることを確認する。Ask-F1報酬に基づく強化学習では、判断力が学習可能であることが示されている:32Bパラメータのモデルは、助力要請の質とタスクの合格率の両方を向上させ、その効果は領域間で転移した。モデルは、いつ質問すべきかという領域特有のヒューリスティックを学習するのではなく、解決不能な不確実性を検知し、それに基づいて行動することを学習する。
English
Frontier coding agents solve complex tasks when given complete context but collapse when specifications are incomplete or ambiguous. The bottleneck is not raw capability, but judgment: knowing when to act autonomously and when to ask for help. Current benchmarks are blind to this failure mode. They supply unambiguous detailed instructions and solely reward execution correctness, so an agent that makes a lucky guess for a missing requirement will score identically to one that would have asked to be certain.
We present HiL-Bench (Human-in-the-Loop Benchmark) to measure this selective escalation skill. Each task contains human-validated blockers (missing information, ambiguous requests, contradictory information) that surface only through progressive exploration, not upfront inspection. Our core metric, Ask-F1, the harmonic mean of question precision and blocker recall, captures the tension between over-asking and silent guessing; its structure architecturally prevents gaming through question spam.
Evaluation across SWE and text-to-SQL domains reveals a large universal judgment gap: no frontier model recovers more than a fraction of its full-information performance when deciding whether to ask. Failure analysis identifies three key help-seeking patterns: overconfident wrong beliefs with no gap detection; high uncertainty detection yet persistent errors; broad, imprecise escalation without self-correction. These consistent patterns confirm poor help-seeking is a model-level flaw, not task-specific. RL training on shaped Ask-F1 reward shows judgment is trainable: a 32B model improves both help-seeking quality and task pass rate, with gains that transfer across domains. The model does not learn domain-specific heuristics for when to ask; it learns to detect unresolvable uncertainty and act on it.