CHI-Bench: ¿Pueden los agentes de IA automatizar flujos de trabajo sanitarios de extremo a extremo, de largo plazo y ricos en políticas?
CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?
May 15, 2026
Autores: Haolin Chen, Deon Metelski, Leon Qi, Tao Xia, Joonyul Lee, Steve Brown, Kevin Riley, Frank Wang, T. Y. Alvin Liu, Hank Capps MD, Zeyu Tang, Xiangchen Song, Lingjing Kong, Fan Feng, Tianyi Zeng, Zhiwei Liu, Zixian Ma, Hang Jiang, Fangli Geng, Yuan Yuan, Chenyu You, Qingsong Wen, Hua Wei, Yanjie Fu, Yue Zhao, Carl Yang, Biwei Huang, Kun Zhang, Caiming Xiong, Sanmi Koyejo, Eric P. Xing, Philip S. Yu, Weiran Yao
cs.AI
Resumen
La automatización integral de operaciones sanitarias realistas exige tres capacidades que están insuficientemente representadas en los benchmarks actuales: densidad normativa (las decisiones deben fundamentarse en una amplia biblioteca de reglas médicas, de seguros y operativas); composición multirrol (una única tarea requiere que el agente desempeñe múltiples roles con transferencias entre ellos); e interacción multilateral (los pasos intermedios del flujo de trabajo son diálogos de múltiples turnos, como revisiones entre pares y contacto con pacientes). Presentamos χ-Bench, un benchmark de flujos de trabajo sanitarios de largo plazo en tres dominios: autorización previa del proveedor, gestión de utilización del pagador y gestión de cuidados. Cada tarea entrega al agente un caso clínico en un simulador de alta fidelidad de 20 aplicaciones sanitarias expuestas a través de 87 herramientas MCP, que el agente debe llevar a un estado terminal mediante llamadas a herramientas y redacción de los artefactos del rol, guiado por un manual de operaciones de atención gestionada de más de 1290 documentos. Entre 30 configuraciones de arnés/modelo de agente, el mejor agente resuelve solo el 28,0 % de las tareas; ningún agente supera el 20 % en la métrica estricta pass^3, y ejecutar todas las tareas en una sola sesión reduce el rendimiento al 3,8 %. Estos resultados plantean la hipótesis de que es probable que surjan brechas similares en otros dominios empresariales irreversibles, con alta densidad normativa y composición de roles.
English
End-to-end automation of realistic healthcare operations stresses three capabilities underrepresented in current benchmarks: policy density, decisions must be grounded in a large library of medical, insurance, and operational rules; Multi-role composition: a single task requires the agent to play multiple roles with handoffs; and multilateral interaction: intermediate workflow steps are multi-turn dialogs, such as peer-to-peer review and patient outreach. We introduce χ-Bench, a benchmark of long-horizon healthcare workflows across three domains: provider prior authorization, payer utilization management, and care management. Each task hands the agent a clinical case in a high-fidelity simulator of 20 healthcare apps exposed via 87 MCP tools, which it must drive to a terminal status through tool calls and writing the role's artifacts, guided by a 1,290+ document managed-care operations handbook skill. Across 30 agent harness/models configurations, the best agent resolves only 28.0% of tasks, no agent clears 20% on strict pass^3, and executing all tasks in a single session slumps the performance to 3.8%. These results raise the hypothesis that similar gaps are likely to surface in other policy-dense, role-composed, irreversible enterprise domains.