CHI-Bench : Les agents IA peuvent-ils automatiser des workflows de santé de bout en bout, à long horizon et riches en politiques ?

Résumé

L'automatisation de bout en bout d'opérations réalistes en santé exige trois capacités sous-représentées dans les référentiels actuels : la densité réglementaire, où les décisions doivent s'appuyer sur une vaste bibliothèque de règles médicales, d'assurance et opérationnelles ; la composition multi-rôles, où une tâche unique impose à l'agent d'incarner plusieurs rôles avec des passations ; et l'interaction multilatérale, où les étapes intermédiaires du flux de travail sont des dialogues multi-tours, tels que les examens par les pairs et la sensibilisation des patients. Nous présentons χ-Bench, un référentiel de flux de travail longs en santé couvrant trois domaines : l'autorisation préalable du prestataire, la gestion de l'utilisation du payeur et la gestion des soins. Chaque tâche confie à l'agent un cas clinique dans un simulateur haute fidélité de 20 applications de santé exposées via 87 outils MCP, qu'il doit mener à un état terminal par des appels d'outils et la rédaction des documents du rôle, guidé par un manuel de gestion des soins gérés de plus de 1 290 documents. Sur 30 configurations d'agent (cadres logiciels et modèles), le meilleur agent ne résout que 28,0 % des tâches, aucun agent n'atteint 20 % avec le critère strict pass³, et l'exécution de toutes les tâches en une seule session fait chuter la performance à 3,8 %. Ces résultats soulèvent l'hypothèse que des lacunes similaires sont susceptibles d'apparaître dans d'autres domaines d'entreprise à forte densité réglementaire, composés de rôles multiples et irréversibles.

English

End-to-end automation of realistic healthcare operations stresses three capabilities underrepresented in current benchmarks: policy density, decisions must be grounded in a large library of medical, insurance, and operational rules; Multi-role composition: a single task requires the agent to play multiple roles with handoffs; and multilateral interaction: intermediate workflow steps are multi-turn dialogs, such as peer-to-peer review and patient outreach. We introduce χ-Bench, a benchmark of long-horizon healthcare workflows across three domains: provider prior authorization, payer utilization management, and care management. Each task hands the agent a clinical case in a high-fidelity simulator of 20 healthcare apps exposed via 87 MCP tools, which it must drive to a terminal status through tool calls and writing the role's artifacts, guided by a 1,290+ document managed-care operations handbook skill. Across 30 agent harness/models configurations, the best agent resolves only 28.0% of tasks, no agent clears 20% on strict pass^3, and executing all tasks in a single session slumps the performance to 3.8%. These results raise the hypothesis that similar gaps are likely to surface in other policy-dense, role-composed, irreversible enterprise domains.