REGEL: Zuverlässige Multimodale RAG für Faktizität in medizinischer Bildsprache-Modelle
RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models
July 6, 2024
Autoren: Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao
cs.AI
Zusammenfassung
Das kürzliche Aufkommen von Medical Large Vision Language Models (Med-LVLMs) hat die medizinische Diagnose verbessert. Allerdings stoßen aktuelle Med-LVLMs häufig auf sachliche Probleme und generieren oft Antworten, die nicht mit etablierten medizinischen Fakten übereinstimmen. Retrieval-Augmented Generation (RAG), das externes Wissen nutzt, kann die faktische Genauigkeit dieser Modelle verbessern, bringt jedoch zwei Hauptprobleme mit sich. Erstens könnten begrenzte abgerufene Kontexte nicht alle erforderlichen Informationen abdecken, während ein übermäßiger Abruf irrelevante und ungenaue Verweise einführen kann, was die Generierung des Modells beeinträchtigt. Zweitens kann in Fällen, in denen das Modell ursprünglich korrekt antwortet, die Anwendung von RAG zu einer übermäßigen Abhängigkeit von abgerufenen Kontexten führen, was zu falschen Antworten führt. Um diese Probleme anzugehen, schlagen wir RULE vor, das aus zwei Komponenten besteht. Erstens führen wir eine nachweislich effektive Strategie zur Kontrolle des Faktizitätsrisikos durch die kalibrierte Auswahl der Anzahl abgerufener Kontexte ein. Zweitens erstellen wir basierend auf Beispielen, in denen eine übermäßige Abhängigkeit von abgerufenen Kontexten zu Fehlern führte, ein Präferenzdatenset zur Feinabstimmung des Modells, um sein Gleichgewicht zwischen dem eigenen Wissen und abgerufenen Kontexten für die Generierung zu wahren. Wir zeigen die Wirksamkeit von RULE anhand von drei medizinischen VQA-Datensätzen und erzielen eine durchschnittliche Verbesserung der faktischen Genauigkeit um 20,8%. Wir veröffentlichen unseren Benchmark und den Code öffentlich unter https://github.com/richard-peng-xia/RULE.
English
The recent emergence of Medical Large Vision Language Models (Med-LVLMs) has
enhanced medical diagnosis. However, current Med-LVLMs frequently encounter
factual issues, often generating responses that do not align with established
medical facts. Retrieval-Augmented Generation (RAG), which utilizes external
knowledge, can improve the factual accuracy of these models but introduces two
major challenges. First, limited retrieved contexts might not cover all
necessary information, while excessive retrieval can introduce irrelevant and
inaccurate references, interfering with the model's generation. Second, in
cases where the model originally responds correctly, applying RAG can lead to
an over-reliance on retrieved contexts, resulting in incorrect answers. To
address these issues, we propose RULE, which consists of two components. First,
we introduce a provably effective strategy for controlling factuality risk
through the calibrated selection of the number of retrieved contexts. Second,
based on samples where over-reliance on retrieved contexts led to errors, we
curate a preference dataset to fine-tune the model, balancing its dependence on
inherent knowledge and retrieved contexts for generation. We demonstrate the
effectiveness of RULE on three medical VQA datasets, achieving an average
improvement of 20.8% in factual accuracy. We publicly release our benchmark and
code in https://github.com/richard-peng-xia/RULE.Summary
AI-Generated Summary