REGLA: RAG Multimodal Confiable para la Factualidad en Modelos de Lenguaje de Visión Médica
RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models
July 6, 2024
Autores: Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao
cs.AI
Resumen
La reciente aparición de Modelos de Lenguaje de Visión Médica a Gran Escala (Med-LVLMs) ha mejorado el diagnóstico médico. Sin embargo, los Med-LVLMs actuales a menudo encuentran problemas de precisión factual, generando respuestas que no se alinean con los hechos médicos establecidos. La Generación con Recuperación Aumentada (RAG), que utiliza conocimiento externo, puede mejorar la precisión factual de estos modelos pero introduce dos desafíos principales. En primer lugar, los contextos recuperados limitados podrían no cubrir toda la información necesaria, mientras que una recuperación excesiva puede introducir referencias irrelevantes e inexactas, interfiriendo con la generación del modelo. En segundo lugar, en casos donde el modelo responde correctamente originalmente, aplicar RAG puede llevar a una dependencia excesiva en los contextos recuperados, resultando en respuestas incorrectas. Para abordar estos problemas, proponemos RULE, que consta de dos componentes. En primer lugar, presentamos una estrategia probadamente efectiva para controlar el riesgo de factualidad a través de la selección calibrada del número de contextos recuperados. En segundo lugar, basándonos en muestras donde la dependencia excesiva en los contextos recuperados llevó a errores, creamos un conjunto de datos de preferencias para ajustar finamente el modelo, equilibrando su dependencia en el conocimiento inherente y los contextos recuperados para la generación. Demostramos la efectividad de RULE en tres conjuntos de datos de preguntas y respuestas médicas, logrando una mejora promedio del 20.8% en precisión factual. Publicamos nuestro banco de pruebas y código en https://github.com/richard-peng-xia/RULE.
English
The recent emergence of Medical Large Vision Language Models (Med-LVLMs) has
enhanced medical diagnosis. However, current Med-LVLMs frequently encounter
factual issues, often generating responses that do not align with established
medical facts. Retrieval-Augmented Generation (RAG), which utilizes external
knowledge, can improve the factual accuracy of these models but introduces two
major challenges. First, limited retrieved contexts might not cover all
necessary information, while excessive retrieval can introduce irrelevant and
inaccurate references, interfering with the model's generation. Second, in
cases where the model originally responds correctly, applying RAG can lead to
an over-reliance on retrieved contexts, resulting in incorrect answers. To
address these issues, we propose RULE, which consists of two components. First,
we introduce a provably effective strategy for controlling factuality risk
through the calibrated selection of the number of retrieved contexts. Second,
based on samples where over-reliance on retrieved contexts led to errors, we
curate a preference dataset to fine-tune the model, balancing its dependence on
inherent knowledge and retrieved contexts for generation. We demonstrate the
effectiveness of RULE on three medical VQA datasets, achieving an average
improvement of 20.8% in factual accuracy. We publicly release our benchmark and
code in https://github.com/richard-peng-xia/RULE.Summary
AI-Generated Summary