ACE-LoRA : Amélioration contextuelle par graphes attentionnels pour l'adaptation efficace en paramètres des modèles vision-langage médicaux

Résumé

Le succès des modèles vision-langage (VLM) de type CLIP sur les images naturelles a inspiré leurs équivalents médicaux, mais les approches existantes se divisent largement en deux extrêmes : les modèles spécialistes entraînés sur des données mono-domaines, qui capturent les détails spécifiques au domaine mais généralisent mal, et les VLM médicaux généralistes entraînés sur des données multi-domaines, qui conservent une sémantique large mais diluent les indices diagnostiques fins. Combler ce compromis entre spécialisation et généralisation reste un défi. Pour résoudre ce problème, nous proposons ACE-LoRA, un cadre d'adaptation efficace en paramètres pour les VLM médicaux généralistes qui préserve une généralisation zero-shot robuste. ACE-LoRA intègre des modules d'adaptation bas rang (LoRA) dans des encodeurs image-texte gelés et introduit un module de réseau de neurones à hypergraphes avec enrichissement contextuel par attention (ACE-HGNN) qui capture des interactions contextuelles d'ordre supérieur au-delà de la similarité par paires pour enrichir les représentations globales avec des indices diagnostiques localisés, abordant une limitation clé des méthodes de réglage fin efficace en paramètres (PEFT) antérieures qui négligent les détails fins. Pour renforcer davantage l'alignement cross-modal, nous formulons une perte InfoNCE guidée par les étiquettes pour supprimer efficacement les faux négatifs entre des paires image-texte sémantiquement liées. Bien qu'ajoutant seulement 0,95 million de paramètres entraînables, ACE-LoRA surpasse constamment les VLM médicaux et les bases de référence PEFT de l'état de l'art dans des benchmarks zero-shot de classification, segmentation et détection couvrant multiples domaines. Notre code est disponible à l'adresse https://github.com/icon-lab/ACE-LoRA.

English

The success of CLIP-like vision-language models (VLMs) on natural images has inspired medical counterparts, yet existing approaches largely fall into two extremes: specialist models trained on single-domain data, which capture domain-specific details but generalize poorly, and generalist medical VLMs trained on multi-domain data, which retain broad semantics but dilute fine-grained diagnostic cues. Bridging this specialization-generalization trade-off remains challenging. To address this problem, we propose ACE-LoRA, a parameter-efficient adaptation framework for generalist medical VLMs that maintains robust zero-shot generalization. ACE-LoRA integrates Low-Rank Adaptation (LoRA) modules into frozen image-text encoders and introduces an Attention-based Context Enhancement Hypergraph Neural Network (ACE-HGNN) module that captures higher-order contextual interactions beyond pairwise similarity to enrich global representations with localized diagnostic cues, addressing a key limitation of prior Parameter-Efficient Fine-Tuning (PEFT) methods that overlook fine-grained details. To further enhance cross-modal alignment, we formulate a label-guided InfoNCE loss to effectively suppress false negatives between semantically related image-text pairs. Despite adding only 0.95M trainable parameters, ACE-LoRA consistently outperforms state-of-the-art medical VLMs and PEFT baselines across zero-shot classification, segmentation, and detection benchmarks spanning multiple domains. Our code is available at https://github.com/icon-lab/ACE-LoRA.

ACE-LoRA : Amélioration contextuelle par graphes attentionnels pour l'adaptation efficace en paramètres des modèles vision-langage médicaux

ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models

Résumé

Support