ChatPaper.aiChatPaper

PhysicianBench : Évaluation des agents LLM dans des environnements réels de DSE

PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

May 4, 2026
Auteurs: Ruoqi Liu, Imran Q. Mohiuddin, Austin J. Schoeffler, Kavita Renduchintala, Ashwin Nayak, Prasantha L. Vemu, Shivam C. Vedak, Kameron C. Black, John L. Havlik, Isaac Ogunmola, Stephen P. Ma, Roopa Dhatt, Jonathan H. Chen
cs.AI

Résumé

Nous présentons PhysicianBench, un benchmark pour évaluer les agents LLM sur des tâches médicales ancrées dans un environnement clinique réel au sein de systèmes de dossiers de santé électroniques (DSE). Les benchmarks médicaux existants se concentrent principalement sur la restitution de connaissances statiques, des actions atomiques à une seule étape, ou l'intention d'action sans vérification exécutable contre l'environnement. Par conséquent, ils ne capturent pas les workflows composites et à long terme qui caractérisent les systèmes cliniques réels. PhysicianBench comprend 100 tâches à long terme adaptées de cas de consultation réels entre médecins de premiers recours et spécialistes, chaque tâche étant examinée de manière indépendante par un panel distinct de médecins. Les tâches sont instanciées dans un environnement DSE avec de véritables dossiers patients et accessibles via les mêmes API standard utilisées par les fournisseurs commerciaux de DSE. Les tâches couvrent 21 spécialités (ex : cardiologie, endocrinologie, oncologie, psychiatrie) et divers types de workflows (ex : interprétation de diagnostics, prescription de médicaments, planification de traitement), nécessitant en moyenne 27 appels d'outils par tâche. Résoudre chaque tâche nécessite de récupérer des données sur plusieurs consultations, de raisonner sur des informations cliniques hétérogènes, d'exécuter des actions cliniques conséquentes et de produire une documentation clinique. Chaque tâche est décomposée en points de contrôle structurés (670 au total dans le benchmark) capturant des étapes distinctes d'achèvement, évaluées par des scripts spécifiques aux tâches avec une vérification ancrée dans l'exécution. Sur 13 agents LLM propriétaires et open source, le modèle le plus performant n'atteint qu'un taux de réussite de 46% (pass@1), tandis que les modèles open source atteignent au maximum 19%, révélant un écart substantiel entre les capacités actuelles des agents et les exigences des workflows cliniques réels. PhysicianBench fournit un benchmark réaliste et ancré dans l'exécution pour mesurer les progrès vers des agents cliniques autonomes.
English
We introduce PhysicianBench, a benchmark for evaluating LLM agents on physician tasks grounded in real clinical setting within electronic health record (EHR) environments. Existing medical agent benchmarks primarily focus on static knowledge recall, single-step atomic actions, or action intent without verifiable execution against the environment. As a result, they fail to capture the long-horizon, composite workflows that characterize real clinical systems. PhysicianBench comprises 100 long-horizon tasks adapted from real consultation cases between primary care and subspecialty physicians, with each task independently reviewed by a separate panel of physicians. Tasks are instantiated in an EHR environment with real patient records and accessed through the same standard APIs used by commercial EHR vendors. Tasks span 21 specialties (e.g., cardiology, endocrinology, oncology, psychiatry) and diverse workflow types (e.g., diagnosis interpretation, medication prescribing, treatment planning), requiring an average of 27 tool calls per task. Solving each task requires retrieving data across encounters, reasoning over heterogeneous clinical information, executing consequential clinical actions, and producing clinical documentation. Each task is decomposed into structured checkpoints (670 in total across the benchmark) capturing distinct stages of completion graded by task-specific scripts with execution-grounded verification. Across 13 proprietary and open-source LLM agents, the best-performing model achieves only 46% success rate (pass@1), while open-source models reach at most 19%, revealing a substantial gap between current agent capabilities and the demands of real-world clinical workflows. PhysicianBench provides a realistic and execution-grounded benchmark for measuring progress toward autonomous clinical agents.
PDF61May 6, 2026