PhysicianBench: Bewertung von KI-Agenten in realen elektronischen Patientenakten-Umgebungen
PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments
May 4, 2026
Autoren: Ruoqi Liu, Imran Q. Mohiuddin, Austin J. Schoeffler, Kavita Renduchintala, Ashwin Nayak, Prasantha L. Vemu, Shivam C. Vedak, Kameron C. Black, John L. Havlik, Isaac Ogunmola, Stephen P. Ma, Roopa Dhatt, Jonathan H. Chen
cs.AI
Zusammenfassung
Wir stellen PhysicianBench vor, einen Benchmark zur Bewertung von LLM-Agenten für ärztliche Aufgaben, die in realen klinischen Umgebungen innerhalb von elektronischen Patientenakten (EHR)-Systemen verankert sind. Bestehende medizinische Agenten-Benchmarks konzentrieren sich primär auf statische Wissensabfrage, einstufige atomare Aktionen oder Aktionsabsichten ohne überprüfbare Ausführung in der Umgebung. Infolgedessen erfassen sie nicht die langfristigen, zusammengesetzten Workflows, die reale klinische Systeme charakterisieren. PhysicianBench umfasst 100 langfristige Aufgaben, die an realen Konsultationsfällen zwischen Hausärzten und Fachärzten adaptiert wurden, wobei jede Aufgabe unabhängig von einem separaten Gremium von Ärzten überprüft wurde. Die Aufgaben werden in einer EHR-Umgebung mit echten Patientendaten instanziiert und über die gleichen standardisierten APIs angesprochen, die auch von kommerziellen EHR-Anbietern genutzt werden. Die Aufgaben erstrecken sich über 21 Fachgebiete (z.B. Kardiologie, Endokrinologie, Onkologie, Psychiatrie) und diverse Workflow-Typen (z.B. Diagnoseinterpretation, Medikationsverschreibung, Behandlungsplanung) und erfordern durchschnittlich 27 Tool-Aufrufe pro Aufgabe. Zur Lösung jeder Aufgabe müssen Daten über verschiedene Behandlungskontakte hinweg abgerufen, heterogene klinische Informationen analysiert, folgenreiche klinische Aktionen ausgeführt und klinische Dokumentationen erstellt werden. Jede Aufgabe wird in strukturierte Checkpoints unterteilt (insgesamt 670 über den Benchmark), die verschiedene Abschlussstadien erfassen und durch aufgabenspezifische Skripte mit ausführungsbasierter Verifikation bewertet werden. Bei 13 proprietären und Open-Source-LLM-Agenten erreicht das leistungsstärkste Modell nur eine Erfolgsquote von 46 % (pass@1), während Open-Source-Modelle maximal 19 % erreichen, was eine erhebliche Lücke zwischen den aktuellen Agentenfähigkeiten und den Anforderungen realer klinischer Workflows aufzeigt. PhysicianBench bietet einen realistischen und ausführungsbasierten Benchmark, um Fortschritte in Richtung autonomer klinischer Agenten zu messen.
English
We introduce PhysicianBench, a benchmark for evaluating LLM agents on physician tasks grounded in real clinical setting within electronic health record (EHR) environments. Existing medical agent benchmarks primarily focus on static knowledge recall, single-step atomic actions, or action intent without verifiable execution against the environment. As a result, they fail to capture the long-horizon, composite workflows that characterize real clinical systems. PhysicianBench comprises 100 long-horizon tasks adapted from real consultation cases between primary care and subspecialty physicians, with each task independently reviewed by a separate panel of physicians. Tasks are instantiated in an EHR environment with real patient records and accessed through the same standard APIs used by commercial EHR vendors. Tasks span 21 specialties (e.g., cardiology, endocrinology, oncology, psychiatry) and diverse workflow types (e.g., diagnosis interpretation, medication prescribing, treatment planning), requiring an average of 27 tool calls per task. Solving each task requires retrieving data across encounters, reasoning over heterogeneous clinical information, executing consequential clinical actions, and producing clinical documentation. Each task is decomposed into structured checkpoints (670 in total across the benchmark) capturing distinct stages of completion graded by task-specific scripts with execution-grounded verification. Across 13 proprietary and open-source LLM agents, the best-performing model achieves only 46% success rate (pass@1), while open-source models reach at most 19%, revealing a substantial gap between current agent capabilities and the demands of real-world clinical workflows. PhysicianBench provides a realistic and execution-grounded benchmark for measuring progress toward autonomous clinical agents.