ChatPaper.aiChatPaper

患者の医療記録におけるプライベートなファインチューニングされたLLMによる質問応答

Question Answering on Patient Medical Records with Private Fine-Tuned LLMs

January 23, 2025
著者: Sara Kothari, Ayush Gupta
cs.AI

要旨

医療システムは、大量の電子健康記録(EHR)を継続的に生成し、一般的にはFast Healthcare Interoperability Resources(FHIR)標準で保存されています。これらの記録には豊富な情報がありますが、その複雑さと量のため、ユーザーが重要な健康情報を取得および解釈することが困難です。大規模言語モデル(LLM)の最近の進歩は、医療データ上で意味論的な質問応答(QA)を可能にし、ユーザーが健康記録と効果的にやり取りできるようにします。ただし、プライバシーとコンプライアンスの確保には、LLMのエッジおよびプライベート展開が必要です。 本論文では、最初にユーザークエリに最も関連性の高いFHIRリソースを特定し(Task1)、その後、これらのリソースに基づいてクエリに回答するアプローチを提案しています(Task2)。私たちは、プライベートホストされた、ファインチューニングされたLLMのパフォーマンスを探求し、GPT-4やGPT-4oなどのベンチマークモデルと比較して評価しています。私たちの結果は、ファインチューニングされたLLMがサイズが250倍小さくても、Task1のF1スコアでGPT-4ファミリーモデルを0.55%上回り、Task2のMeteor Taskで42%上回ることを示しています。さらに、シーケンシャルファインチューニング、モデルの自己評価(ナルシシスティック評価)、およびトレーニングデータサイズがパフォーマンスに与える影響など、LLMの高度な側面を検討しています。モデルとデータセットはこちらで入手可能です:https://huggingface.co/genloop
English
Healthcare systems continuously generate vast amounts of electronic health records (EHRs), commonly stored in the Fast Healthcare Interoperability Resources (FHIR) standard. Despite the wealth of information in these records, their complexity and volume make it difficult for users to retrieve and interpret crucial health insights. Recent advances in Large Language Models (LLMs) offer a solution, enabling semantic question answering (QA) over medical data, allowing users to interact with their health records more effectively. However, ensuring privacy and compliance requires edge and private deployments of LLMs. This paper proposes a novel approach to semantic QA over EHRs by first identifying the most relevant FHIR resources for a user query (Task1) and subsequently answering the query based on these resources (Task2). We explore the performance of privately hosted, fine-tuned LLMs, evaluating them against benchmark models such as GPT-4 and GPT-4o. Our results demonstrate that fine-tuned LLMs, while 250x smaller in size, outperform GPT-4 family models by 0.55% in F1 score on Task1 and 42% on Meteor Task in Task2. Additionally, we examine advanced aspects of LLM usage, including sequential fine-tuning, model self-evaluation (narcissistic evaluation), and the impact of training data size on performance. The models and datasets are available here: https://huggingface.co/genloop

Summary

AI-Generated Summary

PDF92January 27, 2025