ChatPaper.aiChatPaper

Respuesta a preguntas en registros médicos de pacientes con LLMs ajustados finamente y privados

Question Answering on Patient Medical Records with Private Fine-Tuned LLMs

January 23, 2025
Autores: Sara Kothari, Ayush Gupta
cs.AI

Resumen

Los sistemas de atención médica generan continuamente vastas cantidades de registros de salud electrónicos (EHRs), comúnmente almacenados en el estándar de Recursos de Interoperabilidad Rápida de Atención Médica (FHIR). A pesar de la riqueza de información en estos registros, su complejidad y volumen dificultan a los usuarios recuperar e interpretar información crucial sobre la salud. Los avances recientes en Modelos de Lenguaje Grande (LLMs) ofrecen una solución, permitiendo la respuesta semántica a preguntas (QA) sobre datos médicos, lo que permite a los usuarios interactuar de manera más efectiva con sus registros de salud. Sin embargo, garantizar la privacidad y el cumplimiento requiere implementaciones de LLMs en entornos locales y privados. Este documento propone un enfoque novedoso para la respuesta semántica a preguntas sobre EHRs al identificar primero los recursos FHIR más relevantes para una consulta de usuario (Tarea 1) y posteriormente responder a la consulta basándose en estos recursos (Tarea 2). Exploramos el rendimiento de LLMs afinados de forma privada, evaluándolos frente a modelos de referencia como GPT-4 y GPT-4o. Nuestros resultados demuestran que los LLMs afinados, aunque 250 veces más pequeños en tamaño, superan a los modelos de la familia GPT-4 en un 0,55% en puntuación F1 en la Tarea 1 y en un 42% en la Tarea Meteor en la Tarea 2. Además, examinamos aspectos avanzados del uso de LLMs, incluido el afinamiento secuencial, la autoevaluación del modelo (evaluación narcisista) y el impacto del tamaño de los datos de entrenamiento en el rendimiento. Los modelos y conjuntos de datos están disponibles aquí: https://huggingface.co/genloop
English
Healthcare systems continuously generate vast amounts of electronic health records (EHRs), commonly stored in the Fast Healthcare Interoperability Resources (FHIR) standard. Despite the wealth of information in these records, their complexity and volume make it difficult for users to retrieve and interpret crucial health insights. Recent advances in Large Language Models (LLMs) offer a solution, enabling semantic question answering (QA) over medical data, allowing users to interact with their health records more effectively. However, ensuring privacy and compliance requires edge and private deployments of LLMs. This paper proposes a novel approach to semantic QA over EHRs by first identifying the most relevant FHIR resources for a user query (Task1) and subsequently answering the query based on these resources (Task2). We explore the performance of privately hosted, fine-tuned LLMs, evaluating them against benchmark models such as GPT-4 and GPT-4o. Our results demonstrate that fine-tuned LLMs, while 250x smaller in size, outperform GPT-4 family models by 0.55% in F1 score on Task1 and 42% on Meteor Task in Task2. Additionally, we examine advanced aspects of LLM usage, including sequential fine-tuning, model self-evaluation (narcissistic evaluation), and the impact of training data size on performance. The models and datasets are available here: https://huggingface.co/genloop

Summary

AI-Generated Summary

PDF92January 27, 2025