RULE : RAG Multimodal Fiable pour la Véracité dans les Modèles de Vision-Langue Médicaux

papers.abstract

L'émergence récente des modèles médicaux de vision et langage à grande échelle (Med-LVLMs) a amélioré le diagnostic médical. Cependant, les Med-LVLMs actuels rencontrent fréquemment des problèmes de factualité, générant souvent des réponses qui ne correspondent pas aux faits médicaux établis. La Génération Augmentée par Récupération (RAG), qui utilise des connaissances externes, peut améliorer la précision factuelle de ces modèles mais introduit deux défis majeurs. Premièrement, les contextes récupérés limités pourraient ne pas couvrir toutes les informations nécessaires, tandis qu'une récupération excessive peut introduire des références non pertinentes et inexactes, interférant avec la génération du modèle. Deuxièmement, dans les cas où le modèle répond initialement correctement, l'application de la RAG peut entraîner une dépendance excessive aux contextes récupérés, aboutissant à des réponses incorrectes. Pour résoudre ces problèmes, nous proposons RULE, qui se compose de deux éléments. Premièrement, nous introduisons une stratégie prouvée efficace pour contrôler le risque de factualité grâce à la sélection calibrée du nombre de contextes récupérés. Deuxièmement, en nous basant sur des échantillons où une dépendance excessive aux contextes récupérés a conduit à des erreurs, nous constituons un ensemble de données de préférences pour affiner le modèle, équilibrant sa dépendance aux connaissances intrinsèques et aux contextes récupérés pour la génération. Nous démontrons l'efficacité de RULE sur trois ensembles de données de questions-réponses médicales, obtenant une amélioration moyenne de 20,8 % en précision factuelle. Nous rendons public notre benchmark et notre code sur https://github.com/richard-peng-xia/RULE.

English

The recent emergence of Medical Large Vision Language Models (Med-LVLMs) has enhanced medical diagnosis. However, current Med-LVLMs frequently encounter factual issues, often generating responses that do not align with established medical facts. Retrieval-Augmented Generation (RAG), which utilizes external knowledge, can improve the factual accuracy of these models but introduces two major challenges. First, limited retrieved contexts might not cover all necessary information, while excessive retrieval can introduce irrelevant and inaccurate references, interfering with the model's generation. Second, in cases where the model originally responds correctly, applying RAG can lead to an over-reliance on retrieved contexts, resulting in incorrect answers. To address these issues, we propose RULE, which consists of two components. First, we introduce a provably effective strategy for controlling factuality risk through the calibrated selection of the number of retrieved contexts. Second, based on samples where over-reliance on retrieved contexts led to errors, we curate a preference dataset to fine-tune the model, balancing its dependence on inherent knowledge and retrieved contexts for generation. We demonstrate the effectiveness of RULE on three medical VQA datasets, achieving an average improvement of 20.8% in factual accuracy. We publicly release our benchmark and code in https://github.com/richard-peng-xia/RULE.

RULE : RAG Multimodal Fiable pour la Véracité dans les Modèles de Vision-Langue Médicaux

RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models

papers.abstract

Support