ChatPaper.aiChatPaper

CHI-Bench: Können KI-Agenten End-to-End, langfristige, richtlinienreiche Arbeitsabläufe im Gesundheitswesen automatisieren?

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

May 15, 2026
Autoren: Haolin Chen, Deon Metelski, Leon Qi, Tao Xia, Joonyul Lee, Steve Brown, Kevin Riley, Frank Wang, T. Y. Alvin Liu, Hank Capps MD, Zeyu Tang, Xiangchen Song, Lingjing Kong, Fan Feng, Tianyi Zeng, Zhiwei Liu, Zixian Ma, Hang Jiang, Fangli Geng, Yuan Yuan, Chenyu You, Qingsong Wen, Hua Wei, Yanjie Fu, Yue Zhao, Carl Yang, Biwei Huang, Kun Zhang, Caiming Xiong, Sanmi Koyejo, Eric P. Xing, Philip S. Yu, Weiran Yao
cs.AI

Zusammenfassung

Die End-to-End-Automatisierung realistischer Gesundheitsabläufe stellt drei Fähigkeiten in den Vordergrund, die in aktuellen Benchmarks unterrepräsentiert sind: Regelungsdichte – Entscheidungen müssen auf einer umfangreichen Bibliothek medizinischer, versicherungsbezogener und operativer Regeln basieren; Multi-Rollen-Komposition – eine einzelne Aufgabe erfordert, dass der Agent mehrere Rollen mit Übergaben übernimmt; und multilaterale Interaktion – Zwischenschritte im Workflow sind mehrzügige Dialoge, wie Peer-Review und Patientenansprache. Wir stellen χ-Bench vor, einen Benchmark für langfristige Gesundheits-Workflows in drei Bereichen: Vorabgenehmigung durch den Leistungserbringer, Nutzungsmanagement des Kostenträgers und Care-Management. Jede Aufgabe übergibt dem Agenten einen klinischen Fall in einem hochpräzisen Simulator von 20 Gesundheitsanwendungen, die über 87 MCP-Tools zugänglich sind. Der Agent muss diesen Fall durch Tool-Aufrufe und das Verfassen von Artefakten der Rolle in einen Endstatus überführen, geleitet durch eine Fähigkeit in Form eines Handbuchs für Managed-Care-Operations mit über 1.290 Dokumenten. Von 30 Agenten-Harness/Modell-Konfigurationen löst der beste Agent nur 28,0 % der Aufgaben, kein Agent erreicht 20 % beim strikten pass^3, und die Ausführung aller Aufgaben in einer einzigen Sitzung lässt die Leistung auf 3,8 % sinken. Diese Ergebnisse legen die Hypothese nahe, dass ähnliche Lücken wahrscheinlich auch in anderen regelungsdichten, rollenzusammengesetzten, irreversiblen Unternehmensdomänen auftreten.
English
End-to-end automation of realistic healthcare operations stresses three capabilities underrepresented in current benchmarks: policy density, decisions must be grounded in a large library of medical, insurance, and operational rules; Multi-role composition: a single task requires the agent to play multiple roles with handoffs; and multilateral interaction: intermediate workflow steps are multi-turn dialogs, such as peer-to-peer review and patient outreach. We introduce χ-Bench, a benchmark of long-horizon healthcare workflows across three domains: provider prior authorization, payer utilization management, and care management. Each task hands the agent a clinical case in a high-fidelity simulator of 20 healthcare apps exposed via 87 MCP tools, which it must drive to a terminal status through tool calls and writing the role's artifacts, guided by a 1,290+ document managed-care operations handbook skill. Across 30 agent harness/models configurations, the best agent resolves only 28.0% of tasks, no agent clears 20% on strict pass^3, and executing all tasks in a single session slumps the performance to 3.8%. These results raise the hypothesis that similar gaps are likely to surface in other policy-dense, role-composed, irreversible enterprise domains.