Evaluatie van grote taalmodellen in dynamische klinische besluitvorming met gestandaardiseerde patiëntencasussen

Samenvatting

Grote taalmodellen (Large Language Models, LLM's) worden steeds vaker voorgesteld als klinische agenten, maar statische, enkelvoudige benchmarks kunnen niet vastleggen hoe een model dynamisch zorg levert tijdens een consult: informatie verzamelen, behandelplannen opstellen en langetermijnmanagement aanpassen aan opeenvolgende patiënttoestanden. Het medisch onderwijs pakt al lang een vergelijkbare uitdaging aan met gestandaardiseerde patiënten (SP's): getrainde acteurs die klinische casussen consistent weergeven, waardoor realistische oefening en objectieve, gestandaardiseerde beoordeling mogelijk wordt. Hier introduceren we MedSP1000, een op SP's gebaseerde interactieve benchmark voor de evaluatie van klinische agenten, met 1.638 SP-casussen en 24.602 trajectniveau peer-reviewed rubrieken. MedSP1000 zet peer-reviewed SP-onderwijscasussen om in uitvoerbare scenario's met gedefinieerde SP-casusscripts, klinische contextomgevingen en door mensen gevalideerde gestructureerde rubrieken. In elke simulatie-evaluatieronde interageert een klinische agent in een gesloten lus met een patiëntagent en een omgevingscontroller, en wordt het gedrag gedurende het hele consult gescoord volgens de expertcriteria uit het oorspronkelijke materiaal. Bij toepassing van MedSP1000 op een reeks algemene en medisch gespecialiseerde LLM's vinden we dat prestaties op statische benchmarks niet betrouwbaar vertalen naar dergelijke onderwijsscenario's. Het best presterende model, GPT-5.5, voltooit slechts 60,4% van de door experts gedefinieerde rubric-items, terwijl het sterkste medisch gespecialiseerde model 40,0% haalt; het verhogen van de testtijdrekenkracht levert geen meetbare winst op. Deze resultaten suggereren dat huidige LLM's, inclusief agentische systemen die zijn afgestemd op de geneeskunde, nog niet betrouwbaar genoeg zijn om veilig in de daadwerkelijke klinische praktijk te worden geïntegreerd. In bredere zin laat MedSP1000 zien hoe procesmatige, op SP's gebaseerde evaluatie klinisch relevante faalwijzen aan het licht kan brengen die enkelvoudige benchmarks missen.

English

Large language models (LLMs) are increasingly proposed as clinical agents, yet static, single-turn benchmarks cannot capture how a model dynamically delivers care across an encounter: gathering information, planning treatment, and adapting longitudinal management across successive patient states. Medical education has long addressed an analogous challenge through standardized patients (SPs): trained actors who consistently portray clinical cases, enabling realistic practice and objective, scripted assessment. Here we introduce MedSP1000, an SP-derived interactive benchmark for clinical-agent evaluation, including 1,638 SP cases with 24,602 trajectory-level peer-reviewed rubrics. MedSP1000 converts peer-reviewed SP teaching cases into executable scenarios with defined SP case scripts, clinical environment contexts, and human-validated structured rubric. In each simulation evaluation run, a clinical agent interacts in closed loop with a patient agent and an environment controller, and its behaviour is scored throughout the encounter against expert criteria specified in the original materials. Applying MedSP1000 to a range of general-purpose and medically specialized LLMs, we find that performance on static benchmarks does not reliably translate to such educational scenarios. The best-performing model, GPT-5.5, completes only 60.4% of expert-defined rubric items, whereas the strongest medically specialized model reaches 40.0%; increasing test-time compute produces no measurable gain. These results suggest that current LLMs, including agentic systems tuned for medicine, are not yet reliable enough to be safely integrated into actual clinical practice. More broadly, MedSP1000 shows how process-level, SP-style evaluation can reveal clinically relevant failure modes that single-turn benchmarks miss.