Rispondere alle domande sui record medici dei pazienti con LLMs private sintonizzate finemente
Question Answering on Patient Medical Records with Private Fine-Tuned LLMs
January 23, 2025
Autori: Sara Kothari, Ayush Gupta
cs.AI
Abstract
I sistemi sanitari generano continuamente vaste quantità di cartelle cliniche elettroniche (EHR), comunemente memorizzate nello standard Fast Healthcare Interoperability Resources (FHIR). Nonostante la ricchezza di informazioni in queste registrazioni, la loro complessità e volume rendono difficile per gli utenti recuperare e interpretare informazioni cruciali sulla salute. Gli avanzamenti recenti nei Large Language Models (LLM) offrono una soluzione, consentendo la risposta semantica alle domande (QA) sui dati medici, permettendo agli utenti di interagire in modo più efficace con le proprie cartelle cliniche. Tuttavia, garantire la privacy e la conformità richiede implementazioni locali e private dei LLM.
Questo articolo propone un approccio innovativo alla risposta semantica alle domande sulle EHR identificando innanzitutto le risorse FHIR più rilevanti per una query dell'utente (Task1) e successivamente rispondendo alla query basandosi su tali risorse (Task2). Esaminiamo le prestazioni dei LLM sintonizzati finemente ospitati privatamente, valutandoli rispetto a modelli di riferimento come GPT-4 e GPT-4o. I nostri risultati dimostrano che i LLM sintonizzati finemente, pur essendo 250 volte più piccoli in dimensioni, superano i modelli della famiglia GPT-4 dello 0,55% nel punteggio F1 su Task1 e del 42% nel compito Meteor su Task2. Inoltre, esaminiamo aspetti avanzati dell'uso dei LLM, inclusa la sintonizzazione sequenziale, l'autovalutazione del modello (autovalutazione narcisistica) e l'impatto delle dimensioni dei dati di addestramento sulle prestazioni. I modelli e i set di dati sono disponibili qui: https://huggingface.co/genloop
English
Healthcare systems continuously generate vast amounts of electronic health
records (EHRs), commonly stored in the Fast Healthcare Interoperability
Resources (FHIR) standard. Despite the wealth of information in these records,
their complexity and volume make it difficult for users to retrieve and
interpret crucial health insights. Recent advances in Large Language Models
(LLMs) offer a solution, enabling semantic question answering (QA) over medical
data, allowing users to interact with their health records more effectively.
However, ensuring privacy and compliance requires edge and private deployments
of LLMs.
This paper proposes a novel approach to semantic QA over EHRs by first
identifying the most relevant FHIR resources for a user query (Task1) and
subsequently answering the query based on these resources (Task2). We explore
the performance of privately hosted, fine-tuned LLMs, evaluating them against
benchmark models such as GPT-4 and GPT-4o. Our results demonstrate that
fine-tuned LLMs, while 250x smaller in size, outperform GPT-4 family models by
0.55% in F1 score on Task1 and 42% on Meteor Task in Task2. Additionally, we
examine advanced aspects of LLM usage, including sequential fine-tuning, model
self-evaluation (narcissistic evaluation), and the impact of training data size
on performance. The models and datasets are available here:
https://huggingface.co/genloopSummary
AI-Generated Summary