ACE-LoRA: Miglioramento Contestuale con Attenzione Grafica per l'Adattamento Efficiente in Parametri di Modelli Visione-Linguaggio Medici

Abstract

Il successo dei modelli visione-linguaggio (VLM) simili a CLIP sulle immagini naturali ha ispirato controparti mediche, tuttavia gli approcci esistenti ricadono in gran parte in due estremi: modelli specialistici addestrati su dati a dominio singolo, che catturano dettagli specifici del dominio ma generalizzano scarsamente, e VLM medici generalisti addestrati su dati multi-dominio, che preservano una semantica ampia ma diluiscono gli indizi diagnostici fine-granulari. Colmare questo compromesso specializzazione-generalizzazione rimane complesso. Per affrontare questo problema, proponiamo ACE-LoRA, un framework di adattamento efficiente in parametri per VLM medici generalisti che mantiene una robusta generalizzazione zero-shot. ACE-LoRA integra moduli di Adattamento a Basso Rango (LoRA) in encoder immagine-testo congelati e introduce un modulo di Rete Neurale a Ipergrafo per l'Arricchimento Contestuale basato sull'Attenzione (ACE-HGNN) che cattura interazioni contestuali di ordine superiore oltre la similarità a coppie, arricchendo le rappresentazioni globali con indizi diagnostici localizzati e affrontando una limitazione chiave dei precedenti metodi di Fine-Tuning Efficiente in Parametri (PEFT) che trascurano i dettagli fine-granulari. Per migliorare ulteriormente l'allineamento cross-modale, formuliamo una perdita InfoNCE guidata da etichette per sopprimere efficacemente i falsi negativi tra coppie immagine-testo semanticamente correlate. Nonostante l'aggiunta di soli 0.95 milioni di parametri addestrabili, ACE-LoRA supera costantemente i VLM medici e i baseline PEFT allo stato dell'arte in benchmark zero-shot di classificazione, segmentazione e rilevamento che abbracciano molteplici domini. Il nostro codice è disponibile all'indirizzo https://github.com/icon-lab/ACE-LoRA.

English

The success of CLIP-like vision-language models (VLMs) on natural images has inspired medical counterparts, yet existing approaches largely fall into two extremes: specialist models trained on single-domain data, which capture domain-specific details but generalize poorly, and generalist medical VLMs trained on multi-domain data, which retain broad semantics but dilute fine-grained diagnostic cues. Bridging this specialization-generalization trade-off remains challenging. To address this problem, we propose ACE-LoRA, a parameter-efficient adaptation framework for generalist medical VLMs that maintains robust zero-shot generalization. ACE-LoRA integrates Low-Rank Adaptation (LoRA) modules into frozen image-text encoders and introduces an Attention-based Context Enhancement Hypergraph Neural Network (ACE-HGNN) module that captures higher-order contextual interactions beyond pairwise similarity to enrich global representations with localized diagnostic cues, addressing a key limitation of prior Parameter-Efficient Fine-Tuning (PEFT) methods that overlook fine-grained details. To further enhance cross-modal alignment, we formulate a label-guided InfoNCE loss to effectively suppress false negatives between semantically related image-text pairs. Despite adding only 0.95M trainable parameters, ACE-LoRA consistently outperforms state-of-the-art medical VLMs and PEFT baselines across zero-shot classification, segmentation, and detection benchmarks spanning multiple domains. Our code is available at https://github.com/icon-lab/ACE-LoRA.

ACE-LoRA: Miglioramento Contestuale con Attenzione Grafica per l'Adattamento Efficiente in Parametri di Modelli Visione-Linguaggio Medici

ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models

Abstract

Support