CHI-Bench: Kunnen AI-agenten end-to-end, langetermijn- en beleidsrijke gezondheidszorgworkflows automatiseren?

Samenvatting

End-to-end automatisering van realistische gezondheidszorgoperaties benadrukt drie mogelijkheden die ondervertegenwoordigd zijn in huidige benchmarks: beleidsdichtheid: beslissingen moeten gebaseerd zijn op een grote bibliotheek van medische, verzekerings- en operationele regels; multi-rol compositie: een enkele taak vereist dat de agent meerdere rollen vervult met overdrachten; en multilaterale interactie: tussenstappen in de workflow zijn dialogen met meerdere beurten, zoals peer-to-peer beoordeling en patiëntbenadering. We introduceren χ-Bench, een benchmark van langetermijngezondheidszorgworkflows in drie domeinen: voorafgaande toestemming van zorgverleners, gebruiksbeheer door betalers en zorgmanagement. Elke taak geeft de agent een klinische casus in een high-fidelity simulator van 20 gezondheidszorgapps die worden blootgesteld via 87 MCP-tools, die het moet brengen naar een eindstatus via toolaanroepen en het schrijven van de artefacten van de rol, geleid door een vaardigheid gebaseerd op een handboek voor managed-care operaties van meer dan 1.290 documenten. Over 30 configuraties van agent-harnas/modellen heen, lost de beste agent slechts 28,0% van de taken op, geen enkele agent haalt 20% op strikte pass^3, en het uitvoeren van alle taken in een enkele sessie laat de prestatie dalen tot 3,8%. Deze resultaten doen de hypothese rijzen dat soortgelijke hiaten waarschijnlijk naar voren zullen komen in andere beleidsdichte, rol-gecomponeerde, onomkeerbare bedrijfsdomeinen.

English

End-to-end automation of realistic healthcare operations stresses three capabilities underrepresented in current benchmarks: policy density, decisions must be grounded in a large library of medical, insurance, and operational rules; Multi-role composition: a single task requires the agent to play multiple roles with handoffs; and multilateral interaction: intermediate workflow steps are multi-turn dialogs, such as peer-to-peer review and patient outreach. We introduce χ-Bench, a benchmark of long-horizon healthcare workflows across three domains: provider prior authorization, payer utilization management, and care management. Each task hands the agent a clinical case in a high-fidelity simulator of 20 healthcare apps exposed via 87 MCP tools, which it must drive to a terminal status through tool calls and writing the role's artifacts, guided by a 1,290+ document managed-care operations handbook skill. Across 30 agent harness/models configurations, the best agent resolves only 28.0% of tasks, no agent clears 20% on strict pass^3, and executing all tasks in a single session slumps the performance to 3.8%. These results raise the hypothesis that similar gaps are likely to surface in other policy-dense, role-composed, irreversible enterprise domains.