ACE-LoRA: Graph-attentive Kontextverbesserung für parameter-effiziente Anpassung medizinischer Vision-Sprache-Modelle

Zusammenfassung

Der Erfolg von CLIP-artigen Vision-Language-Modellen (VLMs) bei natürlichen Bildern hat medizinische Pendants inspiriert, doch bestehende Ansätze bewegen sich weitgehend in zwei Extremen: Spezialistenmodelle, die auf Einzeldomaniendaten trainiert wurden und domänenspezifische Details erfassen, jedoch schlecht generalisieren, sowie generalistische medizinische VLMs, die auf Multidomaniendaten trainiert wurden und breite Semantik beibehalten, aber feinkörnige diagnostische Hinweise verwässern. Die Überbrückung dieses Spezialisierungs-Generalisierungskompromisses bleibt eine Herausforderung. Um dieses Problem zu adressieren, schlagen wir ACE-LoRA vor, einen parameter-effizienten Adaptionsrahmen für generalistische medizinische VLMs, der eine robuste Zero-Shot-Generalisierung beibehält. ACE-LoRA integriert Low-Rank-Adaptation (LoRA)-Module in eingefrorene Bild-Text-Encoder und führt ein aufmerksamkeitsbasiertes Context Enhancement Hypergraph Neural Network (ACE-HGNN)-Modul ein, das kontextuelle Interaktionen höherer Ordnung jenseits paarweiser Ähnlichkeit erfasst, um globale Repräsentationen mit lokalisierten diagnostischen Hinweisen anzureichern. Dies behebt eine zentrale Schwäche früherer Parameter-Efficient Fine-Tuning (PEFT)-Methoden, die feinkörnige Details vernachlässigen. Um die cross-modale Ausrichtung weiter zu verbessern, formulieren wir einen label-geführten InfoNCE-Loss, um falsche Negative zwischen semantisch verwandten Bild-Text-Paaren effektiv zu unterdrücken. Obwohl nur 0,95M trainierbare Parameter hinzugefügt werden, übertrifft ACE-LoRA durchgängig state-of-the-art medizinische VLMs und PEFT-Baselines in Zero-Shot-Klassifikations-, Segmentierungs- und Detektionsbenchmarks über mehrere Domänen hinweg. Unser Code ist unter https://github.com/icon-lab/ACE-LoRA verfügbar.

English

The success of CLIP-like vision-language models (VLMs) on natural images has inspired medical counterparts, yet existing approaches largely fall into two extremes: specialist models trained on single-domain data, which capture domain-specific details but generalize poorly, and generalist medical VLMs trained on multi-domain data, which retain broad semantics but dilute fine-grained diagnostic cues. Bridging this specialization-generalization trade-off remains challenging. To address this problem, we propose ACE-LoRA, a parameter-efficient adaptation framework for generalist medical VLMs that maintains robust zero-shot generalization. ACE-LoRA integrates Low-Rank Adaptation (LoRA) modules into frozen image-text encoders and introduces an Attention-based Context Enhancement Hypergraph Neural Network (ACE-HGNN) module that captures higher-order contextual interactions beyond pairwise similarity to enrich global representations with localized diagnostic cues, addressing a key limitation of prior Parameter-Efficient Fine-Tuning (PEFT) methods that overlook fine-grained details. To further enhance cross-modal alignment, we formulate a label-guided InfoNCE loss to effectively suppress false negatives between semantically related image-text pairs. Despite adding only 0.95M trainable parameters, ACE-LoRA consistently outperforms state-of-the-art medical VLMs and PEFT baselines across zero-shot classification, segmentation, and detection benchmarks spanning multiple domains. Our code is available at https://github.com/icon-lab/ACE-LoRA.

ACE-LoRA: Graph-attentive Kontextverbesserung für parameter-effiziente Anpassung medizinischer Vision-Sprache-Modelle

ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models

Zusammenfassung

Support