RULE: 医療視覚言語モデルにおける事実性のための信頼性の高いマルチモーダルRAG
RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models
July 6, 2024
著者: Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao
cs.AI
要旨
最近登場した医療用大規模視覚言語モデル(Med-LVLMs)は、医療診断を向上させています。しかし、現在のMed-LVLMsは、確立された医療事実と一致しない応答を生成するなど、事実関係の問題に頻繁に直面しています。外部知識を活用する検索拡張生成(RAG)は、これらのモデルの事実的精度を向上させることができますが、2つの主要な課題を引き起こします。第一に、限られた検索コンテキストでは必要な情報をすべてカバーできない可能性があり、過剰な検索は無関係で不正確な参照を導入し、モデルの生成を妨げる可能性があります。第二に、モデルが最初に正しく応答する場合でも、RAGを適用すると検索コンテキストに過度に依存し、誤った答えを導くことがあります。これらの問題に対処するため、我々はRULEを提案します。RULEは2つのコンポーネントで構成されています。まず、検索コンテキストの数を調整することで、事実リスクを制御する証明可能な効果的な戦略を導入します。次に、検索コンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、モデルを微調整するための選好データセットをキュレーションし、生成における内在知識と検索コンテキストへの依存のバランスを取ります。我々は、3つの医療VQAデータセットでRULEの有効性を実証し、事実的精度で平均20.8%の改善を達成しました。ベンチマークとコードをhttps://github.com/richard-peng-xia/RULEで公開しています。
English
The recent emergence of Medical Large Vision Language Models (Med-LVLMs) has
enhanced medical diagnosis. However, current Med-LVLMs frequently encounter
factual issues, often generating responses that do not align with established
medical facts. Retrieval-Augmented Generation (RAG), which utilizes external
knowledge, can improve the factual accuracy of these models but introduces two
major challenges. First, limited retrieved contexts might not cover all
necessary information, while excessive retrieval can introduce irrelevant and
inaccurate references, interfering with the model's generation. Second, in
cases where the model originally responds correctly, applying RAG can lead to
an over-reliance on retrieved contexts, resulting in incorrect answers. To
address these issues, we propose RULE, which consists of two components. First,
we introduce a provably effective strategy for controlling factuality risk
through the calibrated selection of the number of retrieved contexts. Second,
based on samples where over-reliance on retrieved contexts led to errors, we
curate a preference dataset to fine-tune the model, balancing its dependence on
inherent knowledge and retrieved contexts for generation. We demonstrate the
effectiveness of RULE on three medical VQA datasets, achieving an average
improvement of 20.8% in factual accuracy. We publicly release our benchmark and
code in https://github.com/richard-peng-xia/RULE.Summary
AI-Generated Summary