CHI-Bench: Können KI-Agenten End-to-End, langfristige, richtlinienreiche Arbeitsabläufe im Gesundheitswesen automatisieren?

Zusammenfassung

Die End-to-End-Automatisierung realistischer Gesundheitsabläufe stellt drei Fähigkeiten in den Vordergrund, die in aktuellen Benchmarks unterrepräsentiert sind: Regelungsdichte – Entscheidungen müssen auf einer umfangreichen Bibliothek medizinischer, versicherungsbezogener und operativer Regeln basieren; Multi-Rollen-Komposition – eine einzelne Aufgabe erfordert, dass der Agent mehrere Rollen mit Übergaben übernimmt; und multilaterale Interaktion – Zwischenschritte im Workflow sind mehrzügige Dialoge, wie Peer-Review und Patientenansprache. Wir stellen χ-Bench vor, einen Benchmark für langfristige Gesundheits-Workflows in drei Bereichen: Vorabgenehmigung durch den Leistungserbringer, Nutzungsmanagement des Kostenträgers und Care-Management. Jede Aufgabe übergibt dem Agenten einen klinischen Fall in einem hochpräzisen Simulator von 20 Gesundheitsanwendungen, die über 87 MCP-Tools zugänglich sind. Der Agent muss diesen Fall durch Tool-Aufrufe und das Verfassen von Artefakten der Rolle in einen Endstatus überführen, geleitet durch eine Fähigkeit in Form eines Handbuchs für Managed-Care-Operations mit über 1.290 Dokumenten. Von 30 Agenten-Harness/Modell-Konfigurationen löst der beste Agent nur 28,0 % der Aufgaben, kein Agent erreicht 20 % beim strikten pass^3, und die Ausführung aller Aufgaben in einer einzigen Sitzung lässt die Leistung auf 3,8 % sinken. Diese Ergebnisse legen die Hypothese nahe, dass ähnliche Lücken wahrscheinlich auch in anderen regelungsdichten, rollenzusammengesetzten, irreversiblen Unternehmensdomänen auftreten.

English

End-to-end automation of realistic healthcare operations stresses three capabilities underrepresented in current benchmarks: policy density, decisions must be grounded in a large library of medical, insurance, and operational rules; Multi-role composition: a single task requires the agent to play multiple roles with handoffs; and multilateral interaction: intermediate workflow steps are multi-turn dialogs, such as peer-to-peer review and patient outreach. We introduce χ-Bench, a benchmark of long-horizon healthcare workflows across three domains: provider prior authorization, payer utilization management, and care management. Each task hands the agent a clinical case in a high-fidelity simulator of 20 healthcare apps exposed via 87 MCP tools, which it must drive to a terminal status through tool calls and writing the role's artifacts, guided by a 1,290+ document managed-care operations handbook skill. Across 30 agent harness/models configurations, the best agent resolves only 28.0% of tasks, no agent clears 20% on strict pass^3, and executing all tasks in a single session slumps the performance to 3.8%. These results raise the hypothesis that similar gaps are likely to surface in other policy-dense, role-composed, irreversible enterprise domains.