Het verbeteren van gezondheidszorg LLM's door opgehaalde context.
Boosting Healthcare LLMs Through Retrieved Context
September 23, 2024
Auteurs: Jordi Bayarri-Planas, Ashwin Kumar Gururajan, Dario Garcia-Gasulla
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) hebben opmerkelijke mogelijkheden aangetoond op het gebied van natuurlijke taalverwerking, en toch beperken hun feitelijke onjuistheden en hallucinaties hun toepassing, met name in kritieke domeinen zoals de gezondheidszorg. Context ophaalmethoden, door relevante informatie als input te introduceren, zijn naar voren gekomen als een cruciale benadering om de feitelijkheid en betrouwbaarheid van LLM's te verbeteren. Deze studie verkent de grenzen van context ophaalmethoden binnen het domein van de gezondheidszorg, optimaliseert hun componenten en benchmarkt hun prestaties tegen open en gesloten alternatieven. Onze bevindingen onthullen hoe open LLM's, wanneer aangevuld met een geoptimaliseerd ophaalsysteem, prestaties kunnen behalen die vergelijkbaar zijn met de grootste private oplossingen op gevestigde gezondheidszorgbenchmarks (meerkeuzevraagbeantwoording). Door het gebrek aan realisme te erkennen van het opnemen van mogelijke antwoorden binnen de vraag (een opstelling die alleen te vinden is in medische examens), en na het beoordelen van een sterke LLM-prestatiedegradatie in afwezigheid van die opties, breiden we het context ophaalsysteem in die richting uit. In het bijzonder stellen we OpenMedPrompt voor, een pijplijn die de generatie van meer betrouwbare open antwoorden verbetert, waardoor deze technologie dichter bij praktische toepassing komt.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
natural language processing, and yet, their factual inaccuracies and
hallucinations limits their application, particularly in critical domains like
healthcare. Context retrieval methods, by introducing relevant information as
input, have emerged as a crucial approach for enhancing LLM factuality and
reliability. This study explores the boundaries of context retrieval methods
within the healthcare domain, optimizing their components and benchmarking
their performance against open and closed alternatives. Our findings reveal how
open LLMs, when augmented with an optimized retrieval system, can achieve
performance comparable to the biggest private solutions on established
healthcare benchmarks (multiple-choice question answering). Recognizing the
lack of realism of including the possible answers within the question (a setup
only found in medical exams), and after assessing a strong LLM performance
degradation in the absence of those options, we extend the context retrieval
system in that direction. In particular, we propose OpenMedPrompt a pipeline
that improves the generation of more reliable open-ended answers, moving this
technology closer to practical application.Summary
AI-Generated Summary