ACE-LoRA: Aprimoramento de Contexto com Atenção a Grafos para Adaptação Eficiente em Parâmetros de Modelos de Visão e Linguagem Médicos

Resumo

O sucesso dos modelos visão-linguagem (VLMs) do tipo CLIP em imagens naturais inspirou o desenvolvimento de contrapartidas médicas. No entanto, as abordagens existentes recaem amplamente em dois extremos: modelos especialistas treinados em dados de um único domínio, que capturam detalhes específicos do domínio mas generalizam mal, e VLMs médicos generalistas treinados em dados multi-domínio, que retêm semântica ampla mas diluem pistas diagnósticas de granularidade fina. Superar este compromisso entre especialização e generalização permanece um desafio. Para resolver este problema, propomos o ACE-LoRA, uma estrutura de adaptação com eficiência de parâmetros para VLMs médicos generalistas que mantém uma robusta generalização zero-shot. O ACE-LoRA integra módulos de Adaptação de Baixa Patente (LoRA) em codificadores de imagem-texto congelados e introduz um módulo de Rede Neural de Hipergrafos com Aprimoramento de Contexto Baseado em Atenção (ACE-HGNN). Este módulo captura interações contextuais de ordem superior, indo além da similaridade par a par, para enriquecer as representações globais com pistas diagnósticas localizadas, abordando uma limitação fundamental dos métodos anteriores de Ajuste Fino com Eficiência de Parâmetros (PEFT) que negligenciam detalhes de granularidade fina. Para melhorar ainda mais o alinhamento cross-modal, formulamos uma perda InfoNCE guiada por rótulos para suprimir efetivamente falsos negativos entre pares imagem-texto semanticamente relacionados. Apesar de adicionar apenas 0,95 milhões de parâmetros treináveis, o ACE-LoRA supera consistentemente os VLMs médicos e as linhas de base PEFT mais avançados em benchmarks zero-shot de classificação, segmentação e detecção abrangendo múltiplos domínios. Nosso código está disponível em https://github.com/icon-lab/ACE-LoRA.

English

The success of CLIP-like vision-language models (VLMs) on natural images has inspired medical counterparts, yet existing approaches largely fall into two extremes: specialist models trained on single-domain data, which capture domain-specific details but generalize poorly, and generalist medical VLMs trained on multi-domain data, which retain broad semantics but dilute fine-grained diagnostic cues. Bridging this specialization-generalization trade-off remains challenging. To address this problem, we propose ACE-LoRA, a parameter-efficient adaptation framework for generalist medical VLMs that maintains robust zero-shot generalization. ACE-LoRA integrates Low-Rank Adaptation (LoRA) modules into frozen image-text encoders and introduces an Attention-based Context Enhancement Hypergraph Neural Network (ACE-HGNN) module that captures higher-order contextual interactions beyond pairwise similarity to enrich global representations with localized diagnostic cues, addressing a key limitation of prior Parameter-Efficient Fine-Tuning (PEFT) methods that overlook fine-grained details. To further enhance cross-modal alignment, we formulate a label-guided InfoNCE loss to effectively suppress false negatives between semantically related image-text pairs. Despite adding only 0.95M trainable parameters, ACE-LoRA consistently outperforms state-of-the-art medical VLMs and PEFT baselines across zero-shot classification, segmentation, and detection benchmarks spanning multiple domains. Our code is available at https://github.com/icon-lab/ACE-LoRA.

ACE-LoRA: Aprimoramento de Contexto com Atenção a Grafos para Adaptação Eficiente em Parâmetros de Modelos de Visão e Linguagem Médicos

ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models

Resumo

Support