Steigerung der Leistungsfähigkeit von Gesundheits-Langzeitgedächtnismodellen durch abgerufene Kontexte.
Boosting Healthcare LLMs Through Retrieved Context
September 23, 2024
Autoren: Jordi Bayarri-Planas, Ashwin Kumar Gururajan, Dario Garcia-Gasulla
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in der natürlichen Sprachverarbeitung gezeigt, jedoch begrenzen ihre faktischen Ungenauigkeiten und Halluzinationen ihre Anwendung, insbesondere in kritischen Bereichen wie dem Gesundheitswesen. Kontextabrufmethoden sind als entscheidender Ansatz zur Verbesserung der Faktentreue und Zuverlässigkeit von LLMs aufgekommen, indem sie relevante Informationen als Eingabe einführen. Diese Studie erforscht die Grenzen von Kontextabrufmethoden im Gesundheitswesen, optimiert ihre Komponenten und vergleicht ihre Leistung mit offenen und geschlossenen Alternativen. Unsere Ergebnisse zeigen, wie offene LLMs, wenn sie mit einem optimierten Abrufsystem ergänzt werden, eine Leistung erzielen können, die mit den größten privaten Lösungen auf etablierten Gesundheitsbenchmarks (Frage-Antwort-Systeme mit mehreren Auswahlmöglichkeiten) vergleichbar ist. Angesichts der fehlenden Realitätsnähe bei der Einbeziehung der möglichen Antworten in die Frage (eine Konfiguration, die nur in medizinischen Prüfungen vorkommt) und nach der Feststellung eines starken Leistungsabfalls von LLMs in Abwesenheit dieser Optionen erweitern wir das Kontextabrufsystem in diese Richtung. Insbesondere schlagen wir OpenMedPrompt vor, eine Pipeline, die die Generierung zuverlässigerer offener Antworten verbessert und diese Technologie näher an die praktische Anwendung heranführt.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
natural language processing, and yet, their factual inaccuracies and
hallucinations limits their application, particularly in critical domains like
healthcare. Context retrieval methods, by introducing relevant information as
input, have emerged as a crucial approach for enhancing LLM factuality and
reliability. This study explores the boundaries of context retrieval methods
within the healthcare domain, optimizing their components and benchmarking
their performance against open and closed alternatives. Our findings reveal how
open LLMs, when augmented with an optimized retrieval system, can achieve
performance comparable to the biggest private solutions on established
healthcare benchmarks (multiple-choice question answering). Recognizing the
lack of realism of including the possible answers within the question (a setup
only found in medical exams), and after assessing a strong LLM performance
degradation in the absence of those options, we extend the context retrieval
system in that direction. In particular, we propose OpenMedPrompt a pipeline
that improves the generation of more reliable open-ended answers, moving this
technology closer to practical application.Summary
AI-Generated Summary