Réponse aux questions sur les dossiers médicaux des patients avec des LLMs finement ajustés privés
Question Answering on Patient Medical Records with Private Fine-Tuned LLMs
January 23, 2025
Auteurs: Sara Kothari, Ayush Gupta
cs.AI
Résumé
Les systèmes de santé génèrent continuellement d'énormes quantités de dossiers médicaux électroniques (DME), couramment stockés dans la norme des Ressources d'Interopérabilité Rapide des Soins de Santé (FHIR). Malgré la richesse d'informations contenue dans ces dossiers, leur complexité et leur volume rendent difficile la récupération et l'interprétation d'informations de santé cruciales pour les utilisateurs. Les récents progrès des Grands Modèles de Langage (LLM) offrent une solution, permettant la réponse sémantique à des questions (QA) sur des données médicales, permettant aux utilisateurs d'interagir de manière plus efficace avec leurs dossiers de santé. Cependant, garantir la confidentialité et la conformité nécessite le déploiement d'LLM en périphérie et en privé.
Cet article propose une approche novatrice pour la réponse sémantique à des questions sur les DME en identifiant d'abord les ressources FHIR les plus pertinentes pour une requête utilisateur (Tâche 1) et en répondant ensuite à la requête en se basant sur ces ressources (Tâche 2). Nous explorons les performances d'LLM finement réglés hébergés de manière privée, les évaluant par rapport à des modèles de référence tels que GPT-4 et GPT-4o. Nos résultats démontrent que les LLM finement réglés, bien que 250 fois plus petits en taille, surpassent les modèles de la famille GPT-4 de 0,55% en score F1 sur la Tâche 1 et de 42% sur la Tâche Meteor de la Tâche 2. De plus, nous examinons des aspects avancés de l'utilisation des LLM, y compris le réglage fin séquentiel, l'auto-évaluation du modèle (évaluation narcissique) et l'impact de la taille des données d'entraînement sur les performances. Les modèles et ensembles de données sont disponibles ici : https://huggingface.co/genloop
English
Healthcare systems continuously generate vast amounts of electronic health
records (EHRs), commonly stored in the Fast Healthcare Interoperability
Resources (FHIR) standard. Despite the wealth of information in these records,
their complexity and volume make it difficult for users to retrieve and
interpret crucial health insights. Recent advances in Large Language Models
(LLMs) offer a solution, enabling semantic question answering (QA) over medical
data, allowing users to interact with their health records more effectively.
However, ensuring privacy and compliance requires edge and private deployments
of LLMs.
This paper proposes a novel approach to semantic QA over EHRs by first
identifying the most relevant FHIR resources for a user query (Task1) and
subsequently answering the query based on these resources (Task2). We explore
the performance of privately hosted, fine-tuned LLMs, evaluating them against
benchmark models such as GPT-4 and GPT-4o. Our results demonstrate that
fine-tuned LLMs, while 250x smaller in size, outperform GPT-4 family models by
0.55% in F1 score on Task1 and 42% on Meteor Task in Task2. Additionally, we
examine advanced aspects of LLM usage, including sequential fine-tuning, model
self-evaluation (narcissistic evaluation), and the impact of training data size
on performance. The models and datasets are available here:
https://huggingface.co/genloopSummary
AI-Generated Summary