ПРАВИЛО: Надежный мультимодальный RAG для фактичности в медицинском видении языка моделей
RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models
July 6, 2024
Авторы: Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao
cs.AI
Аннотация
Недавнее появление медицинских крупных языковых моделей с видением (Med-LVLMs) значительно улучшило медицинскую диагностику. Однако текущие Med-LVLMs часто сталкиваются с фактическими проблемами, часто генерируя ответы, которые не соответствуют установленным медицинским фактам. Модель Retrieval-Augmented Generation (RAG), использующая внешние знания, может повысить фактическую точность этих моделей, но вводит две основные проблемы. Во-первых, ограниченные извлеченные контексты могут не охватывать всю необходимую информацию, в то время как избыточное извлечение может внести ненужные и неточные ссылки, вмешиваясь в генерацию модели. Во-вторых, в случаях, когда модель изначально отвечает правильно, применение RAG может привести к чрезмерной зависимости от извлеченных контекстов, что приводит к неправильным ответам. Для решения этих проблем мы предлагаем RULE, который состоит из двух компонентов. Во-первых, мы предлагаем доказанно эффективную стратегию контроля риска фактичности путем калиброванного выбора количества извлеченных контекстов. Во-вторых, на основе образцов, где чрезмерная зависимость от извлеченных контекстов привела к ошибкам, мы составляем набор данных предпочтений для настройки модели, балансируя ее зависимость от врожденных знаний и извлеченных контекстов для генерации. Мы демонстрируем эффективность RULE на трех медицинских наборах данных VQA, достигая среднего улучшения фактической точности на 20.8%. Мы публично выпускаем наш бенчмарк и код по адресу https://github.com/richard-peng-xia/RULE.
English
The recent emergence of Medical Large Vision Language Models (Med-LVLMs) has
enhanced medical diagnosis. However, current Med-LVLMs frequently encounter
factual issues, often generating responses that do not align with established
medical facts. Retrieval-Augmented Generation (RAG), which utilizes external
knowledge, can improve the factual accuracy of these models but introduces two
major challenges. First, limited retrieved contexts might not cover all
necessary information, while excessive retrieval can introduce irrelevant and
inaccurate references, interfering with the model's generation. Second, in
cases where the model originally responds correctly, applying RAG can lead to
an over-reliance on retrieved contexts, resulting in incorrect answers. To
address these issues, we propose RULE, which consists of two components. First,
we introduce a provably effective strategy for controlling factuality risk
through the calibrated selection of the number of retrieved contexts. Second,
based on samples where over-reliance on retrieved contexts led to errors, we
curate a preference dataset to fine-tune the model, balancing its dependence on
inherent knowledge and retrieved contexts for generation. We demonstrate the
effectiveness of RULE on three medical VQA datasets, achieving an average
improvement of 20.8% in factual accuracy. We publicly release our benchmark and
code in https://github.com/richard-peng-xia/RULE.Summary
AI-Generated Summary