CHI-Bench: ¿Pueden los agentes de IA automatizar flujos de trabajo sanitarios de extremo a extremo, de largo plazo y ricos en políticas?

Resumen

La automatización integral de operaciones sanitarias realistas exige tres capacidades que están insuficientemente representadas en los benchmarks actuales: densidad normativa (las decisiones deben fundamentarse en una amplia biblioteca de reglas médicas, de seguros y operativas); composición multirrol (una única tarea requiere que el agente desempeñe múltiples roles con transferencias entre ellos); e interacción multilateral (los pasos intermedios del flujo de trabajo son diálogos de múltiples turnos, como revisiones entre pares y contacto con pacientes). Presentamos χ-Bench, un benchmark de flujos de trabajo sanitarios de largo plazo en tres dominios: autorización previa del proveedor, gestión de utilización del pagador y gestión de cuidados. Cada tarea entrega al agente un caso clínico en un simulador de alta fidelidad de 20 aplicaciones sanitarias expuestas a través de 87 herramientas MCP, que el agente debe llevar a un estado terminal mediante llamadas a herramientas y redacción de los artefactos del rol, guiado por un manual de operaciones de atención gestionada de más de 1290 documentos. Entre 30 configuraciones de arnés/modelo de agente, el mejor agente resuelve solo el 28,0 % de las tareas; ningún agente supera el 20 % en la métrica estricta pass^3, y ejecutar todas las tareas en una sola sesión reduce el rendimiento al 3,8 %. Estos resultados plantean la hipótesis de que es probable que surjan brechas similares en otros dominios empresariales irreversibles, con alta densidad normativa y composición de roles.

English

End-to-end automation of realistic healthcare operations stresses three capabilities underrepresented in current benchmarks: policy density, decisions must be grounded in a large library of medical, insurance, and operational rules; Multi-role composition: a single task requires the agent to play multiple roles with handoffs; and multilateral interaction: intermediate workflow steps are multi-turn dialogs, such as peer-to-peer review and patient outreach. We introduce χ-Bench, a benchmark of long-horizon healthcare workflows across three domains: provider prior authorization, payer utilization management, and care management. Each task hands the agent a clinical case in a high-fidelity simulator of 20 healthcare apps exposed via 87 MCP tools, which it must drive to a terminal status through tool calls and writing the role's artifacts, guided by a 1,290+ document managed-care operations handbook skill. Across 30 agent harness/models configurations, the best agent resolves only 28.0% of tasks, no agent clears 20% on strict pass^3, and executing all tasks in a single session slumps the performance to 3.8%. These results raise the hypothesis that similar gaps are likely to surface in other policy-dense, role-composed, irreversible enterprise domains.