Potenciando LLMs de Salud a Través de Contexto Recuperado
Boosting Healthcare LLMs Through Retrieved Context
September 23, 2024
Autores: Jordi Bayarri-Planas, Ashwin Kumar Gururajan, Dario Garcia-Gasulla
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado capacidades notables en el procesamiento del lenguaje natural, sin embargo, sus inexactitudes factuales y alucinaciones limitan su aplicación, especialmente en dominios críticos como la atención médica. Los métodos de recuperación de contexto, al introducir información relevante como entrada, han surgido como un enfoque crucial para mejorar la veracidad y confiabilidad de los LLMs. Este estudio explora los límites de los métodos de recuperación de contexto dentro del ámbito de la atención médica, optimizando sus componentes y comparando su rendimiento con alternativas abiertas y cerradas. Nuestros hallazgos revelan cómo los LLMs abiertos, cuando se complementan con un sistema de recuperación optimizado, pueden lograr un rendimiento comparable a las mayores soluciones privadas en benchmarks de atención médica establecidos (respuesta a preguntas de opción múltiple). Reconociendo la falta de realismo al incluir las posibles respuestas dentro de la pregunta (una configuración que solo se encuentra en exámenes médicos), y después de evaluar una fuerte degradación en el rendimiento de un LLM en ausencia de esas opciones, ampliamos el sistema de recuperación de contexto en esa dirección. En particular, proponemos OpenMedPrompt, un proceso que mejora la generación de respuestas abiertas más confiables, acercando esta tecnología a una aplicación práctica.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
natural language processing, and yet, their factual inaccuracies and
hallucinations limits their application, particularly in critical domains like
healthcare. Context retrieval methods, by introducing relevant information as
input, have emerged as a crucial approach for enhancing LLM factuality and
reliability. This study explores the boundaries of context retrieval methods
within the healthcare domain, optimizing their components and benchmarking
their performance against open and closed alternatives. Our findings reveal how
open LLMs, when augmented with an optimized retrieval system, can achieve
performance comparable to the biggest private solutions on established
healthcare benchmarks (multiple-choice question answering). Recognizing the
lack of realism of including the possible answers within the question (a setup
only found in medical exams), and after assessing a strong LLM performance
degradation in the absence of those options, we extend the context retrieval
system in that direction. In particular, we propose OpenMedPrompt a pipeline
that improves the generation of more reliable open-ended answers, moving this
technology closer to practical application.Summary
AI-Generated Summary