Улучшение моделей языковых моделей для здравоохранения с помощью извлеченного контекста
Boosting Healthcare LLMs Through Retrieved Context
September 23, 2024
Авторы: Jordi Bayarri-Planas, Ashwin Kumar Gururajan, Dario Garcia-Gasulla
cs.AI
Аннотация
Большие языковые модели (LLM) продемонстрировали выдающиеся возможности в обработке естественного языка, однако их фактические неточности и галлюцинации ограничивают их применение, особенно в критических областях, таких как здравоохранение. Методы извлечения контекста, представляя соответствующую информацию в качестве входных данных, стали ключевым подходом для улучшения фактичности и надежности LLM. В данном исследовании исследуются границы методов извлечения контекста в области здравоохранения, оптимизируя их компоненты и сравнивая их производительность с открытыми и закрытыми альтернативами. Наши результаты показывают, как открытые LLM, когда их дополняют оптимизированной системой извлечения, могут достичь производительности, сравнимой с крупнейшими частными решениями на установленных бенчмарках здравоохранения (вопросно-ответная система с множеством вариантов ответов). Учитывая нереалистичность включения возможных ответов в вопрос (сценарий, характерный только для медицинских экзаменов) и после оценки сильного снижения производительности LLM в отсутствие этих вариантов, мы расширяем систему извлечения контекста в этом направлении. В частности, мы предлагаем OpenMedPrompt - конвейер, который улучшает генерацию более надежных развернутых ответов, сближая эту технологию с практическим применением.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
natural language processing, and yet, their factual inaccuracies and
hallucinations limits their application, particularly in critical domains like
healthcare. Context retrieval methods, by introducing relevant information as
input, have emerged as a crucial approach for enhancing LLM factuality and
reliability. This study explores the boundaries of context retrieval methods
within the healthcare domain, optimizing their components and benchmarking
their performance against open and closed alternatives. Our findings reveal how
open LLMs, when augmented with an optimized retrieval system, can achieve
performance comparable to the biggest private solutions on established
healthcare benchmarks (multiple-choice question answering). Recognizing the
lack of realism of including the possible answers within the question (a setup
only found in medical exams), and after assessing a strong LLM performance
degradation in the absence of those options, we extend the context retrieval
system in that direction. In particular, we propose OpenMedPrompt a pipeline
that improves the generation of more reliable open-ended answers, moving this
technology closer to practical application.Summary
AI-Generated Summary