HiL-Bench (Benchmark de Bucle Humano): ¿Saben los Agentes Cuándo Pedir Ayuda?

Resumen

Los agentes de codificación de vanguardia resuelven tareas complejas cuando se les proporciona un contexto completo, pero colapsan cuando las especificaciones son incompletas o ambiguas. El cuello de botella no es la capacidad bruta, sino el criterio: saber cuándo actuar de forma autónoma y cuándo pedir ayuda. Los puntos de referencia actuales son ciegos a este modo de fallo. Estos suministran instrucciones detalladas y no ambiguas y solo premian la corrección en la ejecución, por lo que un agente que adivina afortunadamente un requisito faltante obtendrá una puntuación idéntica a la de uno que habría preguntado para estar seguro. Presentamos HiL-Bench (Punto de Referencia con Humano en el Ciclo) para medir esta habilidad de escalación selectiva. Cada tarea contiene bloqueos validados por humanos (información faltante, solicitudes ambiguas, información contradictoria) que solo surgen mediante una exploración progresiva, no mediante una inspección inicial. Nuestra métrica principal, Ask-F1, la media armónica de la precisión de las preguntas y la exhaustividad en la detección de bloqueos, captura la tensión entre preguntar en exceso y adivinar en silencio; su estructura impide arquitectónicamente que se pueda manipular mediante el spam de preguntas. La evaluación en los dominios de Ingeniería de Software (SWE) y texto-a-SQL revela una gran brecha universal de criterio: ningún modelo de vanguardia recupera más que una fracción de su rendimiento con información completa cuando decide si preguntar o no. El análisis de fallos identifica tres patrones clave de búsqueda de ayuda: creencias erróneas sobreconfiadas sin detección de lagunas; alta detección de incertidumbre pero errores persistentes; escalación amplia e imprecisa sin autocorrección. Estos patrones consistentes confirman que la mala búsqueda de ayuda es un defecto a nivel del modelo, no específico de la tarea. El entrenamiento por Refuerzo (RL) con una recompensa basada en Ask-F1 moldeada demuestra que el criterio es entrenable: un modelo de 32B mejora tanto la calidad de la búsqueda de ayuda como la tasa de aprobación de tareas, con ganancias que se transfieren entre dominios. El modelo no aprende heurísticas específicas del dominio sobre cuándo preguntar; aprende a detectar incertidumbre irresoluble y a actuar en consecuencia.

English

Frontier coding agents solve complex tasks when given complete context but collapse when specifications are incomplete or ambiguous. The bottleneck is not raw capability, but judgment: knowing when to act autonomously and when to ask for help. Current benchmarks are blind to this failure mode. They supply unambiguous detailed instructions and solely reward execution correctness, so an agent that makes a lucky guess for a missing requirement will score identically to one that would have asked to be certain. We present HiL-Bench (Human-in-the-Loop Benchmark) to measure this selective escalation skill. Each task contains human-validated blockers (missing information, ambiguous requests, contradictory information) that surface only through progressive exploration, not upfront inspection. Our core metric, Ask-F1, the harmonic mean of question precision and blocker recall, captures the tension between over-asking and silent guessing; its structure architecturally prevents gaming through question spam. Evaluation across SWE and text-to-SQL domains reveals a large universal judgment gap: no frontier model recovers more than a fraction of its full-information performance when deciding whether to ask. Failure analysis identifies three key help-seeking patterns: overconfident wrong beliefs with no gap detection; high uncertainty detection yet persistent errors; broad, imprecise escalation without self-correction. These consistent patterns confirm poor help-seeking is a model-level flaw, not task-specific. RL training on shaped Ask-F1 reward shows judgment is trainable: a 32B model improves both help-seeking quality and task pass rate, with gains that transfer across domains. The model does not learn domain-specific heuristics for when to ask; it learns to detect unresolvable uncertainty and act on it.

HiL-Bench (Benchmark de Bucle Humano): ¿Saben los Agentes Cuándo Pedir Ayuda?

HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

Resumen

Support