RULE: Betrouwbare Multimodale RAG voor Feitelijkheid in Medische Visuele Taalmodellen
RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models
July 6, 2024
Auteurs: Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao
cs.AI
Samenvatting
De recente opkomst van Medical Large Vision Language Models (Med-LVLMs) heeft de medische diagnose verbeterd. Huidige Med-LVLMs kampen echter vaak met feitelijke problemen, waarbij ze reacties genereren die niet overeenkomen met gevestigde medische feiten. Retrieval-Augmented Generation (RAG), dat gebruikmaakt van externe kennis, kan de feitelijke nauwkeurigheid van deze modellen verbeteren, maar introduceert twee grote uitdagingen. Ten eerste kunnen beperkte opgehaalde contexten niet alle benodigde informatie dekken, terwijl overmatige retrieval irrelevante en onnauwkeurige referenties kan introduceren, wat de generatie van het model verstoort. Ten tweede kan, in gevallen waarin het model oorspronkelijk correct reageert, het toepassen van RAG leiden tot een overmatige afhankelijkheid van opgehaalde contexten, wat resulteert in incorrecte antwoorden. Om deze problemen aan te pakken, stellen we RULE voor, dat uit twee componenten bestaat. Ten eerste introduceren we een bewezen effectieve strategie voor het beheersen van feitelijk risico door de gekalibreerde selectie van het aantal opgehaalde contexten. Ten tweede, gebaseerd op voorbeelden waarin overmatige afhankelijkheid van opgehaalde contexten tot fouten leidde, stellen we een voorkeursdataset samen om het model te finetunen, waardoor de afhankelijkheid van inherente kennis en opgehaalde contexten voor generatie in balans wordt gebracht. We demonstreren de effectiviteit van RULE op drie medische VQA-datasets, waarbij een gemiddelde verbetering van 20,8% in feitelijke nauwkeurigheid wordt bereikt. We maken onze benchmark en code openbaar op https://github.com/richard-peng-xia/RULE.
English
The recent emergence of Medical Large Vision Language Models (Med-LVLMs) has
enhanced medical diagnosis. However, current Med-LVLMs frequently encounter
factual issues, often generating responses that do not align with established
medical facts. Retrieval-Augmented Generation (RAG), which utilizes external
knowledge, can improve the factual accuracy of these models but introduces two
major challenges. First, limited retrieved contexts might not cover all
necessary information, while excessive retrieval can introduce irrelevant and
inaccurate references, interfering with the model's generation. Second, in
cases where the model originally responds correctly, applying RAG can lead to
an over-reliance on retrieved contexts, resulting in incorrect answers. To
address these issues, we propose RULE, which consists of two components. First,
we introduce a provably effective strategy for controlling factuality risk
through the calibrated selection of the number of retrieved contexts. Second,
based on samples where over-reliance on retrieved contexts led to errors, we
curate a preference dataset to fine-tune the model, balancing its dependence on
inherent knowledge and retrieved contexts for generation. We demonstrate the
effectiveness of RULE on three medical VQA datasets, achieving an average
improvement of 20.8% in factual accuracy. We publicly release our benchmark and
code in https://github.com/richard-peng-xia/RULE.