REGRAS: RAG Multimodal Confiável para Factualidade em Modelos de Linguagem de Visão Médica
RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models
July 6, 2024
Autores: Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao
cs.AI
Resumo
A recente emergência de Modelos de Linguagem de Visão Médica em Grande Escala (Med-LVLMs) tem aprimorado o diagnóstico médico. No entanto, os atuais Med-LVLMs frequentemente encontram problemas factuais, gerando respostas que não estão alinhadas com fatos médicos estabelecidos. A Geração Aprimorada por Recuperação (RAG), que utiliza conhecimento externo, pode melhorar a precisão factual desses modelos, mas introduz dois desafios principais. Primeiro, contextos recuperados limitados podem não abranger todas as informações necessárias, enquanto uma recuperação excessiva pode introduzir referências irrelevantes e imprecisas, interferindo na geração do modelo. Segundo, em casos em que o modelo responde corretamente originalmente, a aplicação do RAG pode levar a uma dependência excessiva de contextos recuperados, resultando em respostas incorretas. Para lidar com esses problemas, propomos RULE, que consiste em dois componentes. Primeiramente, introduzimos uma estratégia comprovadamente eficaz para controlar o risco de factualidade por meio da seleção calibrada do número de contextos recuperados. Em segundo lugar, com base em amostras onde a dependência excessiva de contextos recuperados levou a erros, criamos um conjunto de dados de preferência para ajustar o modelo, equilibrando sua dependência entre o conhecimento inerente e os contextos recuperados para geração. Demonstramos a eficácia de RULE em três conjuntos de dados de VQA médica, alcançando uma melhoria média de 20,8% na precisão factual. Disponibilizamos publicamente nosso benchmark e código em https://github.com/richard-peng-xia/RULE.
English
The recent emergence of Medical Large Vision Language Models (Med-LVLMs) has
enhanced medical diagnosis. However, current Med-LVLMs frequently encounter
factual issues, often generating responses that do not align with established
medical facts. Retrieval-Augmented Generation (RAG), which utilizes external
knowledge, can improve the factual accuracy of these models but introduces two
major challenges. First, limited retrieved contexts might not cover all
necessary information, while excessive retrieval can introduce irrelevant and
inaccurate references, interfering with the model's generation. Second, in
cases where the model originally responds correctly, applying RAG can lead to
an over-reliance on retrieved contexts, resulting in incorrect answers. To
address these issues, we propose RULE, which consists of two components. First,
we introduce a provably effective strategy for controlling factuality risk
through the calibrated selection of the number of retrieved contexts. Second,
based on samples where over-reliance on retrieved contexts led to errors, we
curate a preference dataset to fine-tune the model, balancing its dependence on
inherent knowledge and retrieved contexts for generation. We demonstrate the
effectiveness of RULE on three medical VQA datasets, achieving an average
improvement of 20.8% in factual accuracy. We publicly release our benchmark and
code in https://github.com/richard-peng-xia/RULE.