Avaliação de Grandes Modelos de Linguagem na Tomada de Decisão Clínica Dinâmica com Casos de Pacientes Padronizados

Resumo

Grandes modelos de linguagem (LLMs) estão sendo cada vez mais propostos como agentes clínicos, no entanto, benchmarks estáticos e de turno único não conseguem capturar como um modelo entrega cuidados dinamicamente ao longo de um encontro clínico: coletando informações, planejando tratamento e adaptando o manejo longitudinal em estados sucessivos do paciente. A educação médica há muito enfrenta um desafio análogo por meio de pacientes padronizados (SPs): atores treinados que retratam casos clínicos de forma consistente, permitindo prática realista e avaliação objetiva e roteirizada. Aqui apresentamos o MedSP1000, um benchmark interativo derivado de SPs para avaliação de agentes clínicos, incluindo 1.638 casos de SPs com 24.602 rubricas em nível de trajetória revisadas por pares. O MedSP1000 converte casos de ensino de SPs revisados por pares em cenários executáveis com roteiros definidos de casos de SPs, contextos de ambiente clínico e rubricas estruturadas validadas por humanos. Em cada execução de avaliação simulada, um agente clínico interage em malha fechada com um agente paciente e um controlador de ambiente, e seu comportamento é pontuado ao longo do encontro com base em critérios especialistas especificados nos materiais originais. Aplicando o MedSP1000 a uma variedade de LLMs de uso geral e especializados em medicina, descobrimos que o desempenho em benchmarks estáticos não se traduz de forma confiável para esses cenários educacionais. O modelo com melhor desempenho, GPT-5.5, completa apenas 60,4% dos itens das rubricas definidas por especialistas, enquanto o modelo especializado em medicina mais forte atinge 40,0%; aumentar o tempo de computação durante o teste não produz ganhos mensuráveis. Esses resultados sugerem que os LLMs atuais, incluindo sistemas agentes ajustados para medicina, ainda não são confiáveis o suficiente para serem integrados com segurança na prática clínica real. De forma mais ampla, o MedSP1000 mostra como a avaliação em nível de processo, no estilo SP, pode revelar modos de falha clinicamente relevantes que benchmarks de turno único não detectam.

English

Large language models (LLMs) are increasingly proposed as clinical agents, yet static, single-turn benchmarks cannot capture how a model dynamically delivers care across an encounter: gathering information, planning treatment, and adapting longitudinal management across successive patient states. Medical education has long addressed an analogous challenge through standardized patients (SPs): trained actors who consistently portray clinical cases, enabling realistic practice and objective, scripted assessment. Here we introduce MedSP1000, an SP-derived interactive benchmark for clinical-agent evaluation, including 1,638 SP cases with 24,602 trajectory-level peer-reviewed rubrics. MedSP1000 converts peer-reviewed SP teaching cases into executable scenarios with defined SP case scripts, clinical environment contexts, and human-validated structured rubric. In each simulation evaluation run, a clinical agent interacts in closed loop with a patient agent and an environment controller, and its behaviour is scored throughout the encounter against expert criteria specified in the original materials. Applying MedSP1000 to a range of general-purpose and medically specialized LLMs, we find that performance on static benchmarks does not reliably translate to such educational scenarios. The best-performing model, GPT-5.5, completes only 60.4% of expert-defined rubric items, whereas the strongest medically specialized model reaches 40.0%; increasing test-time compute produces no measurable gain. These results suggest that current LLMs, including agentic systems tuned for medicine, are not yet reliable enough to be safely integrated into actual clinical practice. More broadly, MedSP1000 shows how process-level, SP-style evaluation can reveal clinically relevant failure modes that single-turn benchmarks miss.