取得したコンテキストを通じてヘルスケアLLMの向上
Boosting Healthcare LLMs Through Retrieved Context
September 23, 2024
著者: Jordi Bayarri-Planas, Ashwin Kumar Gururajan, Dario Garcia-Gasulla
cs.AI
要旨
大規模言語モデル(LLMs)は自然言語処理において顕著な能力を示していますが、その事実の不正確さや幻覚は、特に医療のような重要な領域での適用を制限しています。文脈検索手法は、関連情報を入力として導入することで、LLMの事実性と信頼性を向上させるための重要なアプローチとして登場しています。本研究は、医療領域内での文脈検索手法の限界を探求し、その構成要素を最適化し、オープンおよびクローズドな代替手法とのパフォーマンスをベンチマークにしました。研究結果は、最適化された検索システムで強化されたオープンLLMsが、確立された医療ベンチマーク(多肢選択問題回答)において、最大の民間ソリューションと同等のパフォーマンスを達成できることを示しています。問題の可能な回答を質問内に含めることの現実味の欠如(医学試験でのみ見られる設定)を認識し、それらの選択肢がない場合に強力なLLMパフォーマンスの低下を評価した後、文脈検索システムをその方向に拡張しました。具体的には、より信頼性の高い自由回答の生成を改善するパイプラインであるOpenMedPromptを提案し、この技術を実用的な適用に近づけています。
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
natural language processing, and yet, their factual inaccuracies and
hallucinations limits their application, particularly in critical domains like
healthcare. Context retrieval methods, by introducing relevant information as
input, have emerged as a crucial approach for enhancing LLM factuality and
reliability. This study explores the boundaries of context retrieval methods
within the healthcare domain, optimizing their components and benchmarking
their performance against open and closed alternatives. Our findings reveal how
open LLMs, when augmented with an optimized retrieval system, can achieve
performance comparable to the biggest private solutions on established
healthcare benchmarks (multiple-choice question answering). Recognizing the
lack of realism of including the possible answers within the question (a setup
only found in medical exams), and after assessing a strong LLM performance
degradation in the absence of those options, we extend the context retrieval
system in that direction. In particular, we propose OpenMedPrompt a pipeline
that improves the generation of more reliable open-ended answers, moving this
technology closer to practical application.Summary
AI-Generated Summary