¿Cómo sabes eso? Enseñando a los Modelos de Lenguaje Generativos a Referenciar Respuestas a Preguntas Biomédicas

Resumen

Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se han convertido recientemente en la principal fuente de respuestas para las preguntas de los usuarios en línea. A pesar de su capacidad para ofrecer respuestas elocuentes, su precisión y confiabilidad pueden plantear un desafío significativo. Esto es especialmente cierto para dominios sensibles como la biomedicina, donde hay una mayor necesidad de respuestas factualmente correctas. Este documento presenta un sistema de generación aumentada por recuperación biomédica (RAG, por sus siglas en inglés) diseñado para mejorar la confiabilidad de las respuestas generadas. El sistema se basa en un LLM ajustado finamente para la recuperación de preguntas y respuestas, donde se recuperan resúmenes relevantes de PubMed que se pasan al contexto del LLM como entrada a través de un estímulo. Su salida es una respuesta basada en resúmenes de PubMed, donde cada afirmación está referenciada adecuadamente, permitiendo a los usuarios verificar la respuesta. Nuestro sistema de recuperación logra una mejora absoluta del 23% en comparación con el motor de búsqueda de PubMed. Basándonos en la evaluación manual en una muestra pequeña, nuestro componente LLM ajustado finamente logra resultados comparables a GPT-4 Turbo al referenciar resúmenes relevantes. Ponemos a disposición públicamente el conjunto de datos utilizado para ajustar finamente los modelos y los modelos ajustados basados en Mistral-7B-instruct-v0.1 y v0.2.

English

Large language models (LLMs) have recently become the leading source of answers for users' questions online. Despite their ability to offer eloquent answers, their accuracy and reliability can pose a significant challenge. This is especially true for sensitive domains such as biomedicine, where there is a higher need for factually correct answers. This paper introduces a biomedical retrieval-augmented generation (RAG) system designed to enhance the reliability of generated responses. The system is based on a fine-tuned LLM for the referenced question-answering, where retrieved relevant abstracts from PubMed are passed to LLM's context as input through a prompt. Its output is an answer based on PubMed abstracts, where each statement is referenced accordingly, allowing the users to verify the answer. Our retrieval system achieves an absolute improvement of 23% compared to the PubMed search engine. Based on the manual evaluation on a small sample, our fine-tuned LLM component achieves comparable results to GPT-4 Turbo in referencing relevant abstracts. We make the dataset used to fine-tune the models and the fine-tuned models based on Mistral-7B-instruct-v0.1 and v0.2 publicly available.

¿Cómo sabes eso? Enseñando a los Modelos de Lenguaje Generativos a Referenciar Respuestas a Preguntas Biomédicas

How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions

Resumen

Support