Comment le savez-vous ? Enseigner aux modèles de langage génératifs à référencer les réponses aux questions biomédicales

papers.abstract

Les grands modèles de langage (LLM) sont récemment devenus la principale source de réponses aux questions des utilisateurs en ligne. Malgré leur capacité à fournir des réponses éloquentes, leur précision et leur fiabilité peuvent poser un défi significatif. Cela est particulièrement vrai dans des domaines sensibles comme la biomédecine, où le besoin de réponses factuellement correctes est plus élevé. Cet article présente un système de génération augmentée par récupération (RAG) biomédical conçu pour améliorer la fiabilité des réponses générées. Le système repose sur un LLM affiné pour le question-réponse référencé, où les résumés pertinents récupérés de PubMed sont transmis au contexte du LLM via une invite. Sa sortie est une réponse basée sur les résumés de PubMed, où chaque déclaration est référencée en conséquence, permettant aux utilisateurs de vérifier la réponse. Notre système de récupération obtient une amélioration absolue de 23 % par rapport au moteur de recherche PubMed. Sur la base de l'évaluation manuelle d'un petit échantillon, notre composant LLM affiné obtient des résultats comparables à GPT-4 Turbo en matière de référencement des résumés pertinents. Nous rendons publics le jeu de données utilisé pour affiner les modèles ainsi que les modèles affinés basés sur Mistral-7B-instruct-v0.1 et v0.2.

English

Large language models (LLMs) have recently become the leading source of answers for users' questions online. Despite their ability to offer eloquent answers, their accuracy and reliability can pose a significant challenge. This is especially true for sensitive domains such as biomedicine, where there is a higher need for factually correct answers. This paper introduces a biomedical retrieval-augmented generation (RAG) system designed to enhance the reliability of generated responses. The system is based on a fine-tuned LLM for the referenced question-answering, where retrieved relevant abstracts from PubMed are passed to LLM's context as input through a prompt. Its output is an answer based on PubMed abstracts, where each statement is referenced accordingly, allowing the users to verify the answer. Our retrieval system achieves an absolute improvement of 23% compared to the PubMed search engine. Based on the manual evaluation on a small sample, our fine-tuned LLM component achieves comparable results to GPT-4 Turbo in referencing relevant abstracts. We make the dataset used to fine-tune the models and the fine-tuned models based on Mistral-7B-instruct-v0.1 and v0.2 publicly available.

Comment le savez-vous ? Enseigner aux modèles de langage génératifs à référencer les réponses aux questions biomédicales

How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions

papers.abstract

Support