어떻게 알 수 있을까요? 생의학 질문에 대한 답변을 참조하도록 생성형 언어 모델 가르치기
How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions
July 6, 2024
저자: Bojana Bašaragin, Adela Ljajić, Darija Medvecki, Lorenzo Cassano, Miloš Košprdić, Nikola Milošević
cs.AI
초록
대형 언어 모델(LLM)은 최근 온라인 사용자 질문에 대한 주요 답변 제공원으로 자리 잡았습니다. 이들은 유창한 답변을 제공할 수 있지만, 정확성과 신뢰성 측면에서 상당한 문제를 안고 있습니다. 특히 생물의학과 같은 민감한 분야에서는 사실에 기반한 정확한 답변이 더욱 요구됩니다. 본 논문은 생성된 응답의 신뢰성을 강화하기 위해 설계된 생물의학 검색 강화 생성(RAG) 시스템을 소개합니다. 이 시스템은 참조 질문-답변을 위해 미세 조정된 LLM을 기반으로 하며, PubMed에서 검색된 관련 초록을 프롬프트를 통해 LLM의 컨텍스트 입력으로 전달합니다. 그 결과로 PubMed 초록을 기반으로 한 답변이 생성되며, 각 진술은 적절히 참조되어 사용자가 답변을 검증할 수 있도록 합니다. 우리의 검색 시스템은 PubMed 검색 엔진 대비 23%의 절대적 성능 향상을 달성했습니다. 소규모 샘플에 대한 수동 평가 결과, 미세 조정된 LLM 구성 요소는 관련 초록 참조 측면에서 GPT-4 Turbo와 비슷한 성능을 보였습니다. 우리는 Mistral-7B-instruct-v0.1 및 v0.2 기반으로 미세 조정된 모델과 이를 위해 사용된 데이터셋을 공개적으로 제공합니다.
English
Large language models (LLMs) have recently become the leading source of
answers for users' questions online. Despite their ability to offer eloquent
answers, their accuracy and reliability can pose a significant challenge. This
is especially true for sensitive domains such as biomedicine, where there is a
higher need for factually correct answers. This paper introduces a biomedical
retrieval-augmented generation (RAG) system designed to enhance the reliability
of generated responses. The system is based on a fine-tuned LLM for the
referenced question-answering, where retrieved relevant abstracts from PubMed
are passed to LLM's context as input through a prompt. Its output is an answer
based on PubMed abstracts, where each statement is referenced accordingly,
allowing the users to verify the answer. Our retrieval system achieves an
absolute improvement of 23% compared to the PubMed search engine. Based on the
manual evaluation on a small sample, our fine-tuned LLM component achieves
comparable results to GPT-4 Turbo in referencing relevant abstracts. We make
the dataset used to fine-tune the models and the fine-tuned models based on
Mistral-7B-instruct-v0.1 and v0.2 publicly available.Summary
AI-Generated Summary