ACE-LoRA: Graf-Attentieve Contextverbetering voor Parameter-Efficiënte Adaptatie van Medische Vision-Language Modellen

Samenvatting

Het succes van CLIP-achtige vision-language modellen (VLM's) op natuurlijke afbeeldingen heeft medische tegenhangers geïnspireerd, maar bestaande benaderingen vallen grotendeels in twee uitersten: gespecialiseerde modellen getraind op data van één domein, die domeinspecifieke details vastleggen maar slecht generaliseren, en generalistische medische VLM's getraind op multidomein data, die brede semantiek behouden maar fijnmazige diagnostische aanwijzingen verdunnen. Het overbruggen van deze specialisatie-generalistiek afweging blijft een uitdaging. Om dit probleem aan te pakken, stellen we ACE-LoRA voor, een parameter-efficiënt adaptatieraamwerk voor generalistische medische VLM's dat robuuste zero-shot generalisatie behoudt. ACE-LoRA integreert Low-Rank Adaptation (LoRA) modules in bevroren beeld-tekst encoders en introduceert een Attention-gebaseerde Context Enhancement Hypergraph Neural Network (ACE-HGNN) module die hogere-orde contextuele interacties vastlegt verder dan paarsgewijze gelijkenis om globale representaties te verrijken met gelokaliseerde diagnostische aanwijzingen. Dit lost een belangrijke beperking op van eerdere Parameter-Efficient Fine-Tuning (PEFT) methoden die fijnmazige details over het hoofd zien. Om de cross-modale alignering verder te verbeteren, formuleren we een label-gestuurd InfoNCE-verlies om effectief fout-negatieven te onderdrukken tussen semantisch verwante beeld-tekst paren. Ondat het slechts 0.95M trainbare parameters toevoegt, presteert ACE-LoRA consistent beter dan state-of-the-art medische VLM's en PEFT-baselines op zero-shot classificatie-, segmentatie- en detectiebenchmarks die meerdere domeinen bestrijken. Onze code is beschikbaar op https://github.com/icon-lab/ACE-LoRA.

English

The success of CLIP-like vision-language models (VLMs) on natural images has inspired medical counterparts, yet existing approaches largely fall into two extremes: specialist models trained on single-domain data, which capture domain-specific details but generalize poorly, and generalist medical VLMs trained on multi-domain data, which retain broad semantics but dilute fine-grained diagnostic cues. Bridging this specialization-generalization trade-off remains challenging. To address this problem, we propose ACE-LoRA, a parameter-efficient adaptation framework for generalist medical VLMs that maintains robust zero-shot generalization. ACE-LoRA integrates Low-Rank Adaptation (LoRA) modules into frozen image-text encoders and introduces an Attention-based Context Enhancement Hypergraph Neural Network (ACE-HGNN) module that captures higher-order contextual interactions beyond pairwise similarity to enrich global representations with localized diagnostic cues, addressing a key limitation of prior Parameter-Efficient Fine-Tuning (PEFT) methods that overlook fine-grained details. To further enhance cross-modal alignment, we formulate a label-guided InfoNCE loss to effectively suppress false negatives between semantically related image-text pairs. Despite adding only 0.95M trainable parameters, ACE-LoRA consistently outperforms state-of-the-art medical VLMs and PEFT baselines across zero-shot classification, segmentation, and detection benchmarks spanning multiple domains. Our code is available at https://github.com/icon-lab/ACE-LoRA.

ACE-LoRA: Graf-Attentieve Contextverbetering voor Parameter-Efficiënte Adaptatie van Medische Vision-Language Modellen

ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models

Samenvatting

Support