ChatPaper.aiChatPaper

Вопросно-ответная система на медицинских записях пациентов с использованием приватно настроенных крупных языковых моделей.

Question Answering on Patient Medical Records with Private Fine-Tuned LLMs

January 23, 2025
Авторы: Sara Kothari, Ayush Gupta
cs.AI

Аннотация

Системы здравоохранения непрерывно генерируют огромные объемы электронных медицинских записей (EHR), обычно хранящихся в стандарте Fast Healthcare Interoperability Resources (FHIR). Несмотря на богатство информации в этих записях, их сложность и объем затрудняют пользователей в извлечении и интерпретации важных медицинских данных. Недавние достижения в области крупных языковых моделей (LLM) предлагают решение, позволяя осуществлять семантический вопросно-ответный анализ (QA) медицинских данных, что позволяет пользователям более эффективно взаимодействовать со своими медицинскими записями. Однако обеспечение конфиденциальности и соответствия требует использования LLM на краю и в частных средах. В данной статье предлагается новый подход к семантическому QA по EHR путем первоначальной идентификации наиболее релевантных ресурсов FHIR для запроса пользователя (Задача 1) и последующего ответа на запрос на основе этих ресурсов (Задача 2). Мы исследуем производительность LLM, настроенных на работу в частных средах, сравнивая их с базовыми моделями, такими как GPT-4 и GPT-4o. Наши результаты показывают, что настроенные LLM, в 250 раз меньшие по размеру, превосходят модели семейства GPT-4 на 0,55% по показателю F1 на Задаче 1 и на 42% по показателю Meteor Task на Задаче 2. Кроме того, мы рассматриваем продвинутые аспекты использования LLM, включая последовательное настройку, самооценку модели (некроцентрическую оценку) и влияние размера обучающих данных на производительность. Модели и наборы данных доступны здесь: https://huggingface.co/genloop
English
Healthcare systems continuously generate vast amounts of electronic health records (EHRs), commonly stored in the Fast Healthcare Interoperability Resources (FHIR) standard. Despite the wealth of information in these records, their complexity and volume make it difficult for users to retrieve and interpret crucial health insights. Recent advances in Large Language Models (LLMs) offer a solution, enabling semantic question answering (QA) over medical data, allowing users to interact with their health records more effectively. However, ensuring privacy and compliance requires edge and private deployments of LLMs. This paper proposes a novel approach to semantic QA over EHRs by first identifying the most relevant FHIR resources for a user query (Task1) and subsequently answering the query based on these resources (Task2). We explore the performance of privately hosted, fine-tuned LLMs, evaluating them against benchmark models such as GPT-4 and GPT-4o. Our results demonstrate that fine-tuned LLMs, while 250x smaller in size, outperform GPT-4 family models by 0.55% in F1 score on Task1 and 42% on Meteor Task in Task2. Additionally, we examine advanced aspects of LLM usage, including sequential fine-tuning, model self-evaluation (narcissistic evaluation), and the impact of training data size on performance. The models and datasets are available here: https://huggingface.co/genloop

Summary

AI-Generated Summary

PDF92January 27, 2025