ChatPaper.aiChatPaper

RULE: RAG Multimodale Affidabile per la Veridicità nei Modelli di Visione e Linguaggio Medico

RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models

July 6, 2024
Autori: Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao
cs.AI

Abstract

La recente comparsa dei Modelli Linguistici di Visione Medica su Grande Scala (Med-LVLMs) ha migliorato la diagnosi medica. Tuttavia, gli attuali Med-LVLMs incontrano frequentemente problemi di accuratezza fattuale, spesso generando risposte che non si allineano con i fatti medici consolidati. La Generazione Aumentata con Recupero (RAG), che utilizza conoscenze esterne, può migliorare l'accuratezza fattuale di questi modelli, ma introduce due principali sfide. In primo luogo, contesti recuperati limitati potrebbero non coprire tutte le informazioni necessarie, mentre un recupero eccessivo può introdurre riferimenti irrilevanti e inaccurati, interferendo con la generazione del modello. In secondo luogo, nei casi in cui il modello risponde correttamente in origine, l'applicazione della RAG può portare a un'eccessiva dipendenza dai contesti recuperati, risultando in risposte errate. Per affrontare questi problemi, proponiamo RULE, che consiste in due componenti. In primo luogo, introduciamo una strategia dimostrabilmente efficace per controllare il rischio di inaccuratezza fattuale attraverso la selezione calibrata del numero di contesti recuperati. In secondo luogo, basandoci su campioni in cui un'eccessiva dipendenza dai contesti recuperati ha portato a errori, curiamo un dataset di preferenze per affinare il modello, bilanciando la sua dipendenza dalla conoscenza intrinseca e dai contesti recuperati per la generazione. Dimostriamo l'efficacia di RULE su tre dataset di VQA medica, ottenendo un miglioramento medio del 20,8% nell'accuratezza fattuale. Rilasciamo pubblicamente il nostro benchmark e il codice su https://github.com/richard-peng-xia/RULE.
English
The recent emergence of Medical Large Vision Language Models (Med-LVLMs) has enhanced medical diagnosis. However, current Med-LVLMs frequently encounter factual issues, often generating responses that do not align with established medical facts. Retrieval-Augmented Generation (RAG), which utilizes external knowledge, can improve the factual accuracy of these models but introduces two major challenges. First, limited retrieved contexts might not cover all necessary information, while excessive retrieval can introduce irrelevant and inaccurate references, interfering with the model's generation. Second, in cases where the model originally responds correctly, applying RAG can lead to an over-reliance on retrieved contexts, resulting in incorrect answers. To address these issues, we propose RULE, which consists of two components. First, we introduce a provably effective strategy for controlling factuality risk through the calibrated selection of the number of retrieved contexts. Second, based on samples where over-reliance on retrieved contexts led to errors, we curate a preference dataset to fine-tune the model, balancing its dependence on inherent knowledge and retrieved contexts for generation. We demonstrate the effectiveness of RULE on three medical VQA datasets, achieving an average improvement of 20.8% in factual accuracy. We publicly release our benchmark and code in https://github.com/richard-peng-xia/RULE.
PDF273November 28, 2024