ACE-LoRA: Mejora de Contexto con Atención Grafo para la Adaptación Eficiente en Parámetros de Modelos Médicos de Visión y Lenguaje

Resumen

El éxito de los modelos de visión y lenguaje (VLMs) similares a CLIP en imágenes naturales ha inspirado a sus contrapartes médicas; sin embargo, los enfoques existentes se dividen en gran medida en dos extremos: modelos especialistas entrenados con datos de un solo dominio, que capturan detalles específicos del dominio pero generalizan pobremente, y modelos generalistas médicos entrenados con datos multi-dominio, que retienen semántica amplia pero diluyen las pistas diagnósticas de grano fino. Salvar esta disyuntiva entre especialización y generalización sigue siendo un reto. Para abordar este problema, proponemos ACE-LoRA, un marco de adaptación eficiente en parámetros para VLMs médicos generalistas que mantiene una robusta generalización zero-shot. ACE-LoRA integra módulos de Adaptación de Bajo Rango (LoRA) en codificadores de imagen-texto congelados e introduce un módulo de Red de Grafos Hiperbólicos de Mejora de Contexto basada en Atención (ACE-HGNN) que captura interacciones contextuales de orden superior más allá de la similitud por pares para enriquecer las representaciones globales con pistas diagnósticas localizadas, abordando una limitación clave de los métodos previos de Fine-Tuning Eficiente en Parámetros (PEFT) que pasan por alto los detalles de grano fino. Para mejorar aún más la alineación cross-modal, formulamos una pérdida InfoNCE guiada por etiquetas para suprimir eficazmente los falsos negativos entre pares imagen-texto semánticamente relacionados. A pesar de añadir solo 0.95 millones de parámetros entrenables, ACE-LoRA supera consistentemente a los VLMs médicos más avanzados y a los baselines de PEFT en benchmarks zero-shot de clasificación, segmentación y detección que abarcan múltiples dominios. Nuestro código está disponible en https://github.com/icon-lab/ACE-LoRA.

English

The success of CLIP-like vision-language models (VLMs) on natural images has inspired medical counterparts, yet existing approaches largely fall into two extremes: specialist models trained on single-domain data, which capture domain-specific details but generalize poorly, and generalist medical VLMs trained on multi-domain data, which retain broad semantics but dilute fine-grained diagnostic cues. Bridging this specialization-generalization trade-off remains challenging. To address this problem, we propose ACE-LoRA, a parameter-efficient adaptation framework for generalist medical VLMs that maintains robust zero-shot generalization. ACE-LoRA integrates Low-Rank Adaptation (LoRA) modules into frozen image-text encoders and introduces an Attention-based Context Enhancement Hypergraph Neural Network (ACE-HGNN) module that captures higher-order contextual interactions beyond pairwise similarity to enrich global representations with localized diagnostic cues, addressing a key limitation of prior Parameter-Efficient Fine-Tuning (PEFT) methods that overlook fine-grained details. To further enhance cross-modal alignment, we formulate a label-guided InfoNCE loss to effectively suppress false negatives between semantically related image-text pairs. Despite adding only 0.95M trainable parameters, ACE-LoRA consistently outperforms state-of-the-art medical VLMs and PEFT baselines across zero-shot classification, segmentation, and detection benchmarks spanning multiple domains. Our code is available at https://github.com/icon-lab/ACE-LoRA.

ACE-LoRA: Mejora de Contexto con Atención Grafo para la Adaptación Eficiente en Parámetros de Modelos Médicos de Visión y Lenguaje

ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models

Resumen

Support