Modelos de Linguagem de Grande Porte Generalistas Superam Ferramentas Clínicas em Referências Médicas

Resumo

Os assistentes clínicos de IA especializados estão a entrar rapidamente na prática médica, sendo frequentemente apresentados como mais seguros ou fiáveis do que os modelos de linguagem de grande escala (LLMs) de propósito geral. No entanto, ao contrário dos modelos de fronteira, estas ferramentas clínicas raramente são submetidas a avaliação quantitativa independente, criando uma lacuna crítica de evidências, apesar da sua influência crescente no diagnóstico, triagem e interpretação de diretrizes. Avaliámos dois sistemas de IA clínica amplamente utilizados (OpenEvidence e UpToDate Expert AI) em comparação com três LLMs generalistas de última geração (GPT-5, Gemini 3 Pro e Claude Sonnet 4.5), utilizando um mini *benchmark* de 1.000 itens que combina tarefas do MedQA (conhecimento médico) e do HealthBench (alinhamento clínico). Os modelos generalistas superaram consistentemente as ferramentas clínicas, sendo que o GPT-5 obteve as pontuações mais elevadas, enquanto o OpenEvidence e o UpToDate demonstraram deficiências em termos de completude, qualidade da comunicação, consciência contextual e raciocínio de segurança baseado em sistemas. Estes resultados revelam que as ferramentas comercializadas para apoio à decisão clínica podem ficar frequentemente aquém dos LLMs de fronteira, salientando a necessidade urgente de uma avaliação transparente e independente antes da sua implementação em fluxos de trabalho direcionados ao doente.

English

Specialized clinical AI assistants are rapidly entering medical practice, often framed as safer or more reliable than general-purpose large language models (LLMs). Yet, unlike frontier models, these clinical tools are rarely subjected to independent, quantitative evaluation, creating a critical evidence gap despite their growing influence on diagnosis, triage, and guideline interpretation. We assessed two widely deployed clinical AI systems (OpenEvidence and UpToDate Expert AI) against three state-of-the-art generalist LLMs (GPT-5, Gemini 3 Pro, and Claude Sonnet 4.5) using a 1,000-item mini-benchmark combining MedQA (medical knowledge) and HealthBench (clinician-alignment) tasks. Generalist models consistently outperformed clinical tools, with GPT-5 achieving the highest scores, while OpenEvidence and UpToDate demonstrated deficits in completeness, communication quality, context awareness, and systems-based safety reasoning. These findings reveal that tools marketed for clinical decision support may often lag behind frontier LLMs, underscoring the urgent need for transparent, independent evaluation before deployment in patient-facing workflows.

Modelos de Linguagem de Grande Porte Generalistas Superam Ferramentas Clínicas em Referências Médicas

Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks

Resumo

Support