RULE : RAG Multimodal Fiable pour la Véracité dans les Modèles de Vision-Langue Médicaux
RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models
July 6, 2024
Auteurs: Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao
cs.AI
Résumé
L'émergence récente des modèles médicaux de vision et langage à grande échelle (Med-LVLMs) a amélioré le diagnostic médical. Cependant, les Med-LVLMs actuels rencontrent fréquemment des problèmes de factualité, générant souvent des réponses qui ne correspondent pas aux faits médicaux établis. La Génération Augmentée par Récupération (RAG), qui utilise des connaissances externes, peut améliorer la précision factuelle de ces modèles mais introduit deux défis majeurs. Premièrement, les contextes récupérés limités pourraient ne pas couvrir toutes les informations nécessaires, tandis qu'une récupération excessive peut introduire des références non pertinentes et inexactes, interférant avec la génération du modèle. Deuxièmement, dans les cas où le modèle répond initialement correctement, l'application de la RAG peut entraîner une dépendance excessive aux contextes récupérés, aboutissant à des réponses incorrectes. Pour résoudre ces problèmes, nous proposons RULE, qui se compose de deux éléments. Premièrement, nous introduisons une stratégie prouvée efficace pour contrôler le risque de factualité grâce à la sélection calibrée du nombre de contextes récupérés. Deuxièmement, en nous basant sur des échantillons où une dépendance excessive aux contextes récupérés a conduit à des erreurs, nous constituons un ensemble de données de préférences pour affiner le modèle, équilibrant sa dépendance aux connaissances intrinsèques et aux contextes récupérés pour la génération. Nous démontrons l'efficacité de RULE sur trois ensembles de données de questions-réponses médicales, obtenant une amélioration moyenne de 20,8 % en précision factuelle. Nous rendons public notre benchmark et notre code sur https://github.com/richard-peng-xia/RULE.
English
The recent emergence of Medical Large Vision Language Models (Med-LVLMs) has
enhanced medical diagnosis. However, current Med-LVLMs frequently encounter
factual issues, often generating responses that do not align with established
medical facts. Retrieval-Augmented Generation (RAG), which utilizes external
knowledge, can improve the factual accuracy of these models but introduces two
major challenges. First, limited retrieved contexts might not cover all
necessary information, while excessive retrieval can introduce irrelevant and
inaccurate references, interfering with the model's generation. Second, in
cases where the model originally responds correctly, applying RAG can lead to
an over-reliance on retrieved contexts, resulting in incorrect answers. To
address these issues, we propose RULE, which consists of two components. First,
we introduce a provably effective strategy for controlling factuality risk
through the calibrated selection of the number of retrieved contexts. Second,
based on samples where over-reliance on retrieved contexts led to errors, we
curate a preference dataset to fine-tune the model, balancing its dependence on
inherent knowledge and retrieved contexts for generation. We demonstrate the
effectiveness of RULE on three medical VQA datasets, achieving an average
improvement of 20.8% in factual accuracy. We publicly release our benchmark and
code in https://github.com/richard-peng-xia/RULE.Summary
AI-Generated Summary