RULE: 의료 비전 언어 모델의 사실성 확보를 위한 신뢰할 수 있는 멀티모달 RAG
RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models
July 6, 2024
저자: Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao
cs.AI
초록
최근 등장한 의료 대형 시각 언어 모델(Med-LVLMs)은 의료 진단을 향상시켰습니다. 그러나 현재의 Med-LVLMs는 종종 사실적 문제에 직면하며, 기존의 의학적 사실과 일치하지 않는 응답을 생성하는 경우가 많습니다. 외부 지식을 활용하는 검색 증강 생성(Retrieval-Augmented Generation, RAG)은 이러한 모델의 사실적 정확성을 개선할 수 있지만, 두 가지 주요 문제를 야기합니다. 첫째, 제한된 검색 컨텍스트는 필요한 모든 정보를 포함하지 못할 수 있으며, 과도한 검색은 관련 없고 부정확한 참조를 도입하여 모델의 생성을 방해할 수 있습니다. 둘째, 모델이 원래 올바르게 응답하는 경우에도 RAG를 적용하면 검색 컨텍스트에 과도하게 의존하게 되어 잘못된 답변을 초래할 수 있습니다. 이러한 문제를 해결하기 위해 우리는 RULE를 제안합니다. RULE는 두 가지 구성 요소로 이루어져 있습니다. 첫째, 검색 컨텍스트의 수를 교정된 방식으로 선택하여 사실적 위험을 효과적으로 통제하는 전략을 도입합니다. 둘째, 검색 컨텍스트에 과도하게 의존하여 오류가 발생한 샘플을 기반으로 선호도 데이터셋을 구성하여 모델을 미세 조정함으로써, 모델의 내재적 지식과 검색 컨텍스트에 대한 의존도를 균형 있게 조정합니다. 우리는 RULE의 효과를 세 가지 의료 VQA 데이터셋에서 입증하며, 사실적 정확도에서 평균 20.8%의 향상을 달성했습니다. 우리는 벤치마크와 코드를 https://github.com/richard-peng-xia/RULE에서 공개합니다.
English
The recent emergence of Medical Large Vision Language Models (Med-LVLMs) has
enhanced medical diagnosis. However, current Med-LVLMs frequently encounter
factual issues, often generating responses that do not align with established
medical facts. Retrieval-Augmented Generation (RAG), which utilizes external
knowledge, can improve the factual accuracy of these models but introduces two
major challenges. First, limited retrieved contexts might not cover all
necessary information, while excessive retrieval can introduce irrelevant and
inaccurate references, interfering with the model's generation. Second, in
cases where the model originally responds correctly, applying RAG can lead to
an over-reliance on retrieved contexts, resulting in incorrect answers. To
address these issues, we propose RULE, which consists of two components. First,
we introduce a provably effective strategy for controlling factuality risk
through the calibrated selection of the number of retrieved contexts. Second,
based on samples where over-reliance on retrieved contexts led to errors, we
curate a preference dataset to fine-tune the model, balancing its dependence on
inherent knowledge and retrieved contexts for generation. We demonstrate the
effectiveness of RULE on three medical VQA datasets, achieving an average
improvement of 20.8% in factual accuracy. We publicly release our benchmark and
code in https://github.com/richard-peng-xia/RULE.Summary
AI-Generated Summary