ChatPaper.aiChatPaper

PhysicianBench: Evaluación de Agentes LLM en Entornos Reales de Historia Clínica Electrónica

PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

May 4, 2026
Autores: Ruoqi Liu, Imran Q. Mohiuddin, Austin J. Schoeffler, Kavita Renduchintala, Ashwin Nayak, Prasantha L. Vemu, Shivam C. Vedak, Kameron C. Black, John L. Havlik, Isaac Ogunmola, Stephen P. Ma, Roopa Dhatt, Jonathan H. Chen
cs.AI

Resumen

Presentamos PhysicianBench, un punto de referencia para evaluar agentes de LLM en tareas médicas basadas en entornos clínicos reales dentro de entornos de historias clínicas electrónicas (HCE). Los puntos de referencia médicos existentes para agentes se centran principalmente en la recuperación de conocimiento estático, acciones atómicas de un solo paso o en la intención de acción sin una ejecución verificable contra el entorno. Como resultado, no logran capturar los flujos de trabajo compuestos y de largo horizonte que caracterizan los sistemas clínicos reales. PhysicianBench comprende 100 tareas de largo horizonte adaptadas de casos de consulta reales entre médicos de atención primaria y subespecialistas, donde cada tarea fue revisada de forma independiente por un panel separado de médicos. Las tareas se instancian en un entorno de HCE con registros de pacientes reales y se accede a ellas a través de las mismas API estándar utilizadas por los proveedores comerciales de HCE. Las tareas abarcan 21 especialidades (por ejemplo, cardiología, endocrinología, oncología, psiquiatría) y diversos tipos de flujos de trabajo (por ejemplo, interpretación de diagnósticos, prescripción de medicamentos, planificación de tratamientos), requiriendo un promedio de 27 llamadas a herramientas por tarea. Resolver cada tarea requiere recuperar datos entre encuentros, razonar sobre información clínica heterogénea, ejecutar acciones clínicas consecuentes y producir documentación clínica. Cada tarea se descompone en puntos de control estructurados (670 en total en el punto de referencia) que capturan etapas distintas de finalización, calificadas mediante scripts específicos para cada tarea con verificación basada en la ejecución. En una evaluación de 13 agentes de LLM, tanto propietarios como de código abierto, el modelo con mejor rendimiento alcanza solo una tasa de éxito del 46% (pass@1), mientras que los modelos de código abierto llegan como máximo al 19%, lo que revela una brecha sustancial entre las capacidades actuales de los agentes y las demandas de los flujos de trabajo clínicos del mundo real. PhysicianBench proporciona un punto de referencia realista y basado en la ejecución para medir el progreso hacia agentes clínicos autónomos.
English
We introduce PhysicianBench, a benchmark for evaluating LLM agents on physician tasks grounded in real clinical setting within electronic health record (EHR) environments. Existing medical agent benchmarks primarily focus on static knowledge recall, single-step atomic actions, or action intent without verifiable execution against the environment. As a result, they fail to capture the long-horizon, composite workflows that characterize real clinical systems. PhysicianBench comprises 100 long-horizon tasks adapted from real consultation cases between primary care and subspecialty physicians, with each task independently reviewed by a separate panel of physicians. Tasks are instantiated in an EHR environment with real patient records and accessed through the same standard APIs used by commercial EHR vendors. Tasks span 21 specialties (e.g., cardiology, endocrinology, oncology, psychiatry) and diverse workflow types (e.g., diagnosis interpretation, medication prescribing, treatment planning), requiring an average of 27 tool calls per task. Solving each task requires retrieving data across encounters, reasoning over heterogeneous clinical information, executing consequential clinical actions, and producing clinical documentation. Each task is decomposed into structured checkpoints (670 in total across the benchmark) capturing distinct stages of completion graded by task-specific scripts with execution-grounded verification. Across 13 proprietary and open-source LLM agents, the best-performing model achieves only 46% success rate (pass@1), while open-source models reach at most 19%, revealing a substantial gap between current agent capabilities and the demands of real-world clinical workflows. PhysicianBench provides a realistic and execution-grounded benchmark for measuring progress toward autonomous clinical agents.
PDF61May 6, 2026