Potenziare i Modelli Linguaggio per il Settore Sanitario Attraverso il Contesto Recuperato
Boosting Healthcare LLMs Through Retrieved Context
September 23, 2024
Autori: Jordi Bayarri-Planas, Ashwin Kumar Gururajan, Dario Garcia-Gasulla
cs.AI
Abstract
I Large Language Models (LLM) hanno dimostrato notevoli capacità nel
processamento del linguaggio naturale eppure le loro inesattezze factuali e
allucinazioni limitano la loro applicazione, in particolare in settori critici come
la sanità. I metodi di recupero del contesto, introducendo informazioni rilevanti
come input, sono emersi come un approccio cruciale per migliorare la factualità e
la affidabilità dei LLM. Questo studio esplora i limiti dei metodi di recupero del
contesto nel settore sanitario, ottimizzando i loro componenti e confrontando le
loro prestazioni con alternative aperte e chiuse. I nostri risultati rivelano come
i LLM aperti, quando potenziati con un sistema di recupero ottimizzato, possano
raggiungere prestazioni paragonabili alle più grandi soluzioni private su benchmark
sanitari consolidati (risposta a domande a scelta multipla). Riconoscendo la
mancanza di realismo nell'includere le possibili risposte all'interno della domanda
(una configurazione tipica solo negli esami medici) e dopo aver valutato un forte
degrado delle prestazioni dei LLM in assenza di tali opzioni, estendiamo il sistema
di recupero del contesto in quella direzione. In particolare, proponiamo OpenMedPrompt,
un insieme di strumenti che migliora la generazione di risposte aperte più affidabili,
avvicinando così questa tecnologia all'applicazione pratica.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
natural language processing, and yet, their factual inaccuracies and
hallucinations limits their application, particularly in critical domains like
healthcare. Context retrieval methods, by introducing relevant information as
input, have emerged as a crucial approach for enhancing LLM factuality and
reliability. This study explores the boundaries of context retrieval methods
within the healthcare domain, optimizing their components and benchmarking
their performance against open and closed alternatives. Our findings reveal how
open LLMs, when augmented with an optimized retrieval system, can achieve
performance comparable to the biggest private solutions on established
healthcare benchmarks (multiple-choice question answering). Recognizing the
lack of realism of including the possible answers within the question (a setup
only found in medical exams), and after assessing a strong LLM performance
degradation in the absence of those options, we extend the context retrieval
system in that direction. In particular, we propose OpenMedPrompt a pipeline
that improves the generation of more reliable open-ended answers, moving this
technology closer to practical application.Summary
AI-Generated Summary