ChatPaper.aiChatPaper

CHI-Bench: Kunnen AI-agenten end-to-end, langetermijn- en beleidsrijke gezondheidszorgworkflows automatiseren?

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

May 15, 2026
Auteurs: Haolin Chen, Deon Metelski, Leon Qi, Tao Xia, Joonyul Lee, Steve Brown, Kevin Riley, Frank Wang, T. Y. Alvin Liu, Hank Capps MD, Zeyu Tang, Xiangchen Song, Lingjing Kong, Fan Feng, Tianyi Zeng, Zhiwei Liu, Zixian Ma, Hang Jiang, Fangli Geng, Yuan Yuan, Chenyu You, Qingsong Wen, Hua Wei, Yanjie Fu, Yue Zhao, Carl Yang, Biwei Huang, Kun Zhang, Caiming Xiong, Sanmi Koyejo, Eric P. Xing, Philip S. Yu, Weiran Yao
cs.AI

Samenvatting

End-to-end automatisering van realistische gezondheidszorgoperaties benadrukt drie mogelijkheden die ondervertegenwoordigd zijn in huidige benchmarks: beleidsdichtheid: beslissingen moeten gebaseerd zijn op een grote bibliotheek van medische, verzekerings- en operationele regels; multi-rol compositie: een enkele taak vereist dat de agent meerdere rollen vervult met overdrachten; en multilaterale interactie: tussenstappen in de workflow zijn dialogen met meerdere beurten, zoals peer-to-peer beoordeling en patiëntbenadering. We introduceren χ-Bench, een benchmark van langetermijngezondheidszorgworkflows in drie domeinen: voorafgaande toestemming van zorgverleners, gebruiksbeheer door betalers en zorgmanagement. Elke taak geeft de agent een klinische casus in een high-fidelity simulator van 20 gezondheidszorgapps die worden blootgesteld via 87 MCP-tools, die het moet brengen naar een eindstatus via toolaanroepen en het schrijven van de artefacten van de rol, geleid door een vaardigheid gebaseerd op een handboek voor managed-care operaties van meer dan 1.290 documenten. Over 30 configuraties van agent-harnas/modellen heen, lost de beste agent slechts 28,0% van de taken op, geen enkele agent haalt 20% op strikte pass^3, en het uitvoeren van alle taken in een enkele sessie laat de prestatie dalen tot 3,8%. Deze resultaten doen de hypothese rijzen dat soortgelijke hiaten waarschijnlijk naar voren zullen komen in andere beleidsdichte, rol-gecomponeerde, onomkeerbare bedrijfsdomeinen.
English
End-to-end automation of realistic healthcare operations stresses three capabilities underrepresented in current benchmarks: policy density, decisions must be grounded in a large library of medical, insurance, and operational rules; Multi-role composition: a single task requires the agent to play multiple roles with handoffs; and multilateral interaction: intermediate workflow steps are multi-turn dialogs, such as peer-to-peer review and patient outreach. We introduce χ-Bench, a benchmark of long-horizon healthcare workflows across three domains: provider prior authorization, payer utilization management, and care management. Each task hands the agent a clinical case in a high-fidelity simulator of 20 healthcare apps exposed via 87 MCP tools, which it must drive to a terminal status through tool calls and writing the role's artifacts, guided by a 1,290+ document managed-care operations handbook skill. Across 30 agent harness/models configurations, the best agent resolves only 28.0% of tasks, no agent clears 20% on strict pass^3, and executing all tasks in a single session slumps the performance to 3.8%. These results raise the hypothesis that similar gaps are likely to surface in other policy-dense, role-composed, irreversible enterprise domains.