MIRIAD: 数百万の医療クエリ-応答ペアでLLMを拡張する
MIRIAD: Augmenting LLMs with millions of medical query-response pairs
June 6, 2025
著者: Qinyue Zheng, Salman Abdullah, Sam Rawal, Cyril Zakka, Sophie Ostmeier, Maximilian Purk, Eduardo Reis, Eric J. Topol, Jure Leskovec, Michael Moor
cs.AI
要旨
LLM(大規模言語モデル)は、高度な意思決定支援と柔軟なチャットアシスタントを通じて、医療分野を変革する可能性を秘めています。しかし、LLMは不正確な医療コンテンツを生成しやすいという課題があります。LLMを高品質な医療知識に基づかせるため、RAG(Retrieval-Augmented Generation)を介して外部知識を組み込む手法が採用されています。この手法では、非構造化の医療知識を小さなテキストチャンクに分割し、選択的に取得してLLMのコンテキストに統合します。しかし、既存のRAGパイプラインは、ノイズが多く、未整理で、LLMが効果的に活用するのが難しい生の非構造化医療テキストに依存しています。医療知識を体系化し、LLMに最適な形で提供するためのシステマティックなアプローチは一般的に不足しています。
これらの課題に対処するため、我々はMIRIADを導入しました。これは、5,821,948の医療QAペアからなる大規模でキュレーションされたコーパスで、各ペアは査読付き医療文献のパッセージから再構成され、LLM生成、フィルタリング、グラウンディング、および人間による注釈を組み合わせた半自動化パイプラインを通じて作成されています。従来の医療コーパスが非構造化テキストに依存していたのに対し、MIRIADはウェブスケールの医療知識を操作可能な質問-応答形式でカプセル化しており、よりターゲットを絞った検索を可能にします。
挑戦的な医療QAベンチマークでの実験では、MIRIADを組み込むことで、同じソースコーパスと同じ量の取得テキストを使用する非構造化RAGベースラインと比較して、LLMの精度が最大6.7%向上することが示されました。さらに、MIRIADはLLMの医療ハルシネーション(誤生成)検出能力を22.5%から37%(F1スコアの向上)改善しました。また、MIRIAD-Atlasを導入し、56の医療分野にまたがるMIRIADのインタラクティブマップを提供することで、臨床ユーザーが視覚的に医療知識を探索、検索、精緻化できるようにしました。
MIRIADは、医療情報検索システム、強化されたRAGアプリケーション、知識に基づいたチャットインターフェースなど、多くの下流アプリケーションを解き放つ可能性を秘めており、最終的には医療分野でのより信頼性の高いLLMアプリケーションを実現します。
English
LLMs are bound to transform healthcare with advanced decision support and
flexible chat assistants. However, LLMs are prone to generate inaccurate
medical content. To ground LLMs in high-quality medical knowledge, LLMs have
been equipped with external knowledge via RAG, where unstructured medical
knowledge is split into small text chunks that can be selectively retrieved and
integrated into the LLMs context. Yet, existing RAG pipelines rely on raw,
unstructured medical text, which can be noisy, uncurated and difficult for LLMs
to effectively leverage. Systematic approaches to organize medical knowledge to
best surface it to LLMs are generally lacking. To address these challenges, we
introduce MIRIAD, a large-scale, curated corpus of 5,821,948 medical QA pairs,
each rephrased from and grounded in a passage from peer-reviewed medical
literature using a semi-automated pipeline combining LLM generation, filtering,
grounding, and human annotation. Unlike prior medical corpora, which rely on
unstructured text, MIRIAD encapsulates web-scale medical knowledge in an
operationalized query-response format, which enables more targeted retrieval.
Experiments on challenging medical QA benchmarks show that augmenting LLMs with
MIRIAD improves accuracy up to 6.7% compared to unstructured RAG baselines with
the same source corpus and with the same amount of retrieved text. Moreover,
MIRIAD improved the ability of LLMs to detect medical hallucinations by 22.5 to
37% (increase in F1 score). We further introduce MIRIAD-Atlas, an interactive
map of MIRIAD spanning 56 medical disciplines, enabling clinical users to
visually explore, search, and refine medical knowledge. MIRIAD promises to
unlock a wealth of down-stream applications, including medical information
retrievers, enhanced RAG applications, and knowledge-grounded chat interfaces,
which ultimately enables more reliable LLM applications in healthcare.