PhysicianBench: Оценка агентов на основе больших языковых моделей в реальных средах электронных медицинских карт
PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments
May 4, 2026
Авторы: Ruoqi Liu, Imran Q. Mohiuddin, Austin J. Schoeffler, Kavita Renduchintala, Ashwin Nayak, Prasantha L. Vemu, Shivam C. Vedak, Kameron C. Black, John L. Havlik, Isaac Ogunmola, Stephen P. Ma, Roopa Dhatt, Jonathan H. Chen
cs.AI
Аннотация
Мы представляем PhysicianBench — эталонный комплекс для оценки языковых моделей-агентов при выполнении задач врачей в условиях реальной клинической практики в среде электронных медицинских карт (EHR). Существующие медицинские бенчмарки для агентов в основном ориентированы на воспроизведение статических знаний, выполнение одношаговых атомарных действий или определение намерений без проверяемого исполнения в среде. Как следствие, они не охватывают долгосрочные составные рабочие процессы, характерные для реальных клинических систем. PhysicianBench включает 100 долгосрочных задач, адаптированных из реальных консультационных случаев между врачами первичного звена и узкими специалистами, причем каждая задача независимо рецензировалась отдельной группой врачей. Задачи реализованы в среде EHR с реальными пациентами и доступны через стандартные API, используемые коммерческими поставщиками EHR. Задачи охватывают 21 специальность (например, кардиология, эндокринология, онкология, психиатрия) и разнообразные типы рабочих процессов (интерпретация диагноза, назначение лекарств, планирование лечения), требуя в среднем 27 вызовов инструментов на задачу. Решение каждой задачи требует извлечения данных из различных обращений, анализа разнородной клинической информации, выполнения значимых клинических действий и создания клинической документации. Каждая задача декомпозируется на структурированные контрольные точки (всего 670 по бенчмарку), фиксирующие отдельные этапы выполнения, которые оцениваются с помощью специфичных для задачи скриптов с проверкой на основе исполнения. Среди 13 проприетарных и открытых языковых моделей-агентов лучшая модель демонстрирует успех лишь в 46% случаев (pass@1), в то время как открытые модели достигают максимум 19%, что указывает на значительный разрыв между текущими возможностями агентов и требованиями реальных клинических workflow. PhysicianBench предоставляет реалистичный и основанный на исполнении эталон для измерения прогресса в создании автономных клинических агентов.
English
We introduce PhysicianBench, a benchmark for evaluating LLM agents on physician tasks grounded in real clinical setting within electronic health record (EHR) environments. Existing medical agent benchmarks primarily focus on static knowledge recall, single-step atomic actions, or action intent without verifiable execution against the environment. As a result, they fail to capture the long-horizon, composite workflows that characterize real clinical systems. PhysicianBench comprises 100 long-horizon tasks adapted from real consultation cases between primary care and subspecialty physicians, with each task independently reviewed by a separate panel of physicians. Tasks are instantiated in an EHR environment with real patient records and accessed through the same standard APIs used by commercial EHR vendors. Tasks span 21 specialties (e.g., cardiology, endocrinology, oncology, psychiatry) and diverse workflow types (e.g., diagnosis interpretation, medication prescribing, treatment planning), requiring an average of 27 tool calls per task. Solving each task requires retrieving data across encounters, reasoning over heterogeneous clinical information, executing consequential clinical actions, and producing clinical documentation. Each task is decomposed into structured checkpoints (670 in total across the benchmark) capturing distinct stages of completion graded by task-specific scripts with execution-grounded verification. Across 13 proprietary and open-source LLM agents, the best-performing model achieves only 46% success rate (pass@1), while open-source models reach at most 19%, revealing a substantial gap between current agent capabilities and the demands of real-world clinical workflows. PhysicianBench provides a realistic and execution-grounded benchmark for measuring progress toward autonomous clinical agents.