Hoe weet je dat? Het aanleren van generatieve taalmodelen om antwoorden op biomedische vragen te refereren
How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions
July 6, 2024
Auteurs: Bojana Bašaragin, Adela Ljajić, Darija Medvecki, Lorenzo Cassano, Miloš Košprdić, Nikola Milošević
cs.AI
Samenvatting
Grote taalmodellen (LLM's) zijn recentelijk de belangrijkste bron geworden voor het beantwoorden van gebruikersvragen online. Ondanks hun vermogen om welsprekende antwoorden te geven, kunnen hun nauwkeurigheid en betrouwbaarheid een aanzienlijke uitdaging vormen. Dit geldt vooral voor gevoelige domeinen zoals de biomedische wetenschap, waar een grotere behoefte bestaat aan feitelijk correcte antwoorden. Dit artikel introduceert een biomedisch retrieval-augmented generation (RAG)-systeem dat is ontworpen om de betrouwbaarheid van gegenereerde antwoorden te verbeteren. Het systeem is gebaseerd op een fijn afgestemd LLM voor het beantwoorden van vragen met referenties, waarbij relevante samenvattingen uit PubMed worden doorgegeven aan de context van het LLM als invoer via een prompt. De uitvoer is een antwoord gebaseerd op PubMed-samenvattingen, waarbij elke bewering dienovereenkomstig wordt gerefereerd, zodat gebruikers het antwoord kunnen verifiëren. Ons retrievalsysteem behaalt een absolute verbetering van 23% vergeleken met de PubMed-zoekmachine. Op basis van een handmatige evaluatie van een kleine steekproef behaalt onze fijn afgestemde LLM-component vergelijkbare resultaten met GPT-4 Turbo in het refereren van relevante samenvattingen. We maken de dataset die is gebruikt om de modellen fijn af te stemmen en de fijn afgestemde modellen gebaseerd op Mistral-7B-instruct-v0.1 en v0.2 publiekelijk beschikbaar.
English
Large language models (LLMs) have recently become the leading source of
answers for users' questions online. Despite their ability to offer eloquent
answers, their accuracy and reliability can pose a significant challenge. This
is especially true for sensitive domains such as biomedicine, where there is a
higher need for factually correct answers. This paper introduces a biomedical
retrieval-augmented generation (RAG) system designed to enhance the reliability
of generated responses. The system is based on a fine-tuned LLM for the
referenced question-answering, where retrieved relevant abstracts from PubMed
are passed to LLM's context as input through a prompt. Its output is an answer
based on PubMed abstracts, where each statement is referenced accordingly,
allowing the users to verify the answer. Our retrieval system achieves an
absolute improvement of 23% compared to the PubMed search engine. Based on the
manual evaluation on a small sample, our fine-tuned LLM component achieves
comparable results to GPT-4 Turbo in referencing relevant abstracts. We make
the dataset used to fine-tune the models and the fine-tuned models based on
Mistral-7B-instruct-v0.1 and v0.2 publicly available.