ChatPaper.aiChatPaper

CHI-Bench : Les agents IA peuvent-ils automatiser des workflows de santé de bout en bout, à long horizon et riches en politiques ?

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

May 15, 2026
Auteurs: Haolin Chen, Deon Metelski, Leon Qi, Tao Xia, Joonyul Lee, Steve Brown, Kevin Riley, Frank Wang, T. Y. Alvin Liu, Hank Capps MD, Zeyu Tang, Xiangchen Song, Lingjing Kong, Fan Feng, Tianyi Zeng, Zhiwei Liu, Zixian Ma, Hang Jiang, Fangli Geng, Yuan Yuan, Chenyu You, Qingsong Wen, Hua Wei, Yanjie Fu, Yue Zhao, Carl Yang, Biwei Huang, Kun Zhang, Caiming Xiong, Sanmi Koyejo, Eric P. Xing, Philip S. Yu, Weiran Yao
cs.AI

Résumé

L'automatisation de bout en bout d'opérations réalistes en santé exige trois capacités sous-représentées dans les référentiels actuels : la densité réglementaire, où les décisions doivent s'appuyer sur une vaste bibliothèque de règles médicales, d'assurance et opérationnelles ; la composition multi-rôles, où une tâche unique impose à l'agent d'incarner plusieurs rôles avec des passations ; et l'interaction multilatérale, où les étapes intermédiaires du flux de travail sont des dialogues multi-tours, tels que les examens par les pairs et la sensibilisation des patients. Nous présentons χ-Bench, un référentiel de flux de travail longs en santé couvrant trois domaines : l'autorisation préalable du prestataire, la gestion de l'utilisation du payeur et la gestion des soins. Chaque tâche confie à l'agent un cas clinique dans un simulateur haute fidélité de 20 applications de santé exposées via 87 outils MCP, qu'il doit mener à un état terminal par des appels d'outils et la rédaction des documents du rôle, guidé par un manuel de gestion des soins gérés de plus de 1 290 documents. Sur 30 configurations d'agent (cadres logiciels et modèles), le meilleur agent ne résout que 28,0 % des tâches, aucun agent n'atteint 20 % avec le critère strict pass³, et l'exécution de toutes les tâches en une seule session fait chuter la performance à 3,8 %. Ces résultats soulèvent l'hypothèse que des lacunes similaires sont susceptibles d'apparaître dans d'autres domaines d'entreprise à forte densité réglementaire, composés de rôles multiples et irréversibles.
English
End-to-end automation of realistic healthcare operations stresses three capabilities underrepresented in current benchmarks: policy density, decisions must be grounded in a large library of medical, insurance, and operational rules; Multi-role composition: a single task requires the agent to play multiple roles with handoffs; and multilateral interaction: intermediate workflow steps are multi-turn dialogs, such as peer-to-peer review and patient outreach. We introduce χ-Bench, a benchmark of long-horizon healthcare workflows across three domains: provider prior authorization, payer utilization management, and care management. Each task hands the agent a clinical case in a high-fidelity simulator of 20 healthcare apps exposed via 87 MCP tools, which it must drive to a terminal status through tool calls and writing the role's artifacts, guided by a 1,290+ document managed-care operations handbook skill. Across 30 agent harness/models configurations, the best agent resolves only 28.0% of tasks, no agent clears 20% on strict pass^3, and executing all tasks in a single session slumps the performance to 3.8%. These results raise the hypothesis that similar gaps are likely to surface in other policy-dense, role-composed, irreversible enterprise domains.