ChatPaper.aiChatPaper

一般向け大規模言語モデル、医療ベンチマークで臨床ツールを凌駕

Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks

December 1, 2025
著者: Krithik Vishwanath, Mrigayu Ghosh, Anton Alyakin, Daniel Alexander Alber, Yindalon Aphinyanaphongs, Eric Karl Oermann
cs.AI

要旨

専門的な臨床AIアシスタントが医療現場に急速に浸透しつつあり、汎用大規模言語モデル(LLM)よりも安全または信頼性が高いと位置づけられることが多い。しかし、最先端モデルとは異なり、これらの臨床ツールは独立した定量的評価がほとんど行われておらず、診断、トリアージ、ガイドライン解釈への影響が拡大しているにもかかわらず、重大なエビデンス格差が生じている。我々は、MedQA(医学知識)とHealthBench(臨床家整合性)タスクを組み合わせた1,000項目のミニベンチマークを用いて、広く導入されている2つの臨床AIシステム(OpenEvidenceとUpToDate Expert AI)を、3つの最先端汎用LLM(GPT-5、Gemini 3 Pro、Claude Sonnet 4.5)と比較評価した。汎用モデルは臨床ツールを一貫して上回り、GPT-5が最高スコアを達成した一方、OpenEvidenceとUpToDateは、完全性、伝達品質、文脈認識、システムベースの安全推論において課題を示した。これらの知見は、臨床意思決定支援として販売されているツールが最先端LLMに遅れをとっている場合が多いことを明らかにし、患者対応ワークフローへの導入前における透明性のある独立した評価の緊急性を浮き彫りにしている。
English
Specialized clinical AI assistants are rapidly entering medical practice, often framed as safer or more reliable than general-purpose large language models (LLMs). Yet, unlike frontier models, these clinical tools are rarely subjected to independent, quantitative evaluation, creating a critical evidence gap despite their growing influence on diagnosis, triage, and guideline interpretation. We assessed two widely deployed clinical AI systems (OpenEvidence and UpToDate Expert AI) against three state-of-the-art generalist LLMs (GPT-5, Gemini 3 Pro, and Claude Sonnet 4.5) using a 1,000-item mini-benchmark combining MedQA (medical knowledge) and HealthBench (clinician-alignment) tasks. Generalist models consistently outperformed clinical tools, with GPT-5 achieving the highest scores, while OpenEvidence and UpToDate demonstrated deficits in completeness, communication quality, context awareness, and systems-based safety reasoning. These findings reveal that tools marketed for clinical decision support may often lag behind frontier LLMs, underscoring the urgent need for transparent, independent evaluation before deployment in patient-facing workflows.
PDF21December 3, 2025