¿Cómo sabes eso? Enseñando a los Modelos de Lenguaje Generativos a Referenciar Respuestas a Preguntas Biomédicas
How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions
July 6, 2024
Autores: Bojana Bašaragin, Adela Ljajić, Darija Medvecki, Lorenzo Cassano, Miloš Košprdić, Nikola Milošević
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se han convertido recientemente en la principal fuente de respuestas para las preguntas de los usuarios en línea. A pesar de su capacidad para ofrecer respuestas elocuentes, su precisión y confiabilidad pueden plantear un desafío significativo. Esto es especialmente cierto para dominios sensibles como la biomedicina, donde hay una mayor necesidad de respuestas factualmente correctas. Este documento presenta un sistema de generación aumentada por recuperación biomédica (RAG, por sus siglas en inglés) diseñado para mejorar la confiabilidad de las respuestas generadas. El sistema se basa en un LLM ajustado finamente para la recuperación de preguntas y respuestas, donde se recuperan resúmenes relevantes de PubMed que se pasan al contexto del LLM como entrada a través de un estímulo. Su salida es una respuesta basada en resúmenes de PubMed, donde cada afirmación está referenciada adecuadamente, permitiendo a los usuarios verificar la respuesta. Nuestro sistema de recuperación logra una mejora absoluta del 23% en comparación con el motor de búsqueda de PubMed. Basándonos en la evaluación manual en una muestra pequeña, nuestro componente LLM ajustado finamente logra resultados comparables a GPT-4 Turbo al referenciar resúmenes relevantes. Ponemos a disposición públicamente el conjunto de datos utilizado para ajustar finamente los modelos y los modelos ajustados basados en Mistral-7B-instruct-v0.1 y v0.2.
English
Large language models (LLMs) have recently become the leading source of
answers for users' questions online. Despite their ability to offer eloquent
answers, their accuracy and reliability can pose a significant challenge. This
is especially true for sensitive domains such as biomedicine, where there is a
higher need for factually correct answers. This paper introduces a biomedical
retrieval-augmented generation (RAG) system designed to enhance the reliability
of generated responses. The system is based on a fine-tuned LLM for the
referenced question-answering, where retrieved relevant abstracts from PubMed
are passed to LLM's context as input through a prompt. Its output is an answer
based on PubMed abstracts, where each statement is referenced accordingly,
allowing the users to verify the answer. Our retrieval system achieves an
absolute improvement of 23% compared to the PubMed search engine. Based on the
manual evaluation on a small sample, our fine-tuned LLM component achieves
comparable results to GPT-4 Turbo in referencing relevant abstracts. We make
the dataset used to fine-tune the models and the fine-tuned models based on
Mistral-7B-instruct-v0.1 and v0.2 publicly available.Summary
AI-Generated Summary