ACE-LoRA: Графово-внимательное контекстное усиление для параметрически-эффективной адаптации медицинских моделей компьютерного зрения и языка
ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models
March 17, 2026
Авторы: M. Arda Aydın, Melih B. Yilmaz, Aykut Koç, Tolga Çukur
cs.AI
Аннотация
Успех моделей типа CLIP, работающих с визуальными и текстовыми данными (Vision-Language Models, VLM), на естественных изображениях вдохновил на создание их медицинских аналогов. Однако существующие подходы в основном сводятся к двум крайностям: специализированным моделям, обучаемым на данных одной предметной области, которые хорошо улавливают специфические детали, но плохо обобщаются, и универсальным медицинским VLM, обучаемым на мультидоменных данных, которые сохраняют широкую семантику, но нивелируют тонкие диагностические признаки. Преодоление этого компромисса между специализацией и обобщающей способностью остается сложной задачей. Для решения данной проблемы мы предлагаем ACE-LoRA — параметрически эффективный фреймворк адаптации для универсальных медицинских VLM, который сохраняет надежную zero-shot обобщающую способность. ACE-LoRA интегрирует модули Low-Rank Adaptation (LoRA) в замороженные текстово-визуальные энкодеры и вводит модуль Attention-based Context Enhancement Hypergraph Neural Network (ACE-HGNN), который захватывает контекстные взаимодействия высшего порядка, выходящие за рамки парного сходства, чтобы обогатить глобальные представления локализованными диагностическими признаками. Это устраняет ключевое ограничение предыдущих методов параметрически эффективной тонкой настройки (Parameter-Efficient Fine-Tuning, PEFT), игнорирующих тонкие детали. Для дальнейшего улучшения кросс-модального согласования мы формулируем label-guided InfoNCE loss, чтобы эффективно подавлять ложные негативы между семантически связанными парами «изображение-текст». Несмотря на добавление всего 0.95 млн обучаемых параметров, ACE-LoRA стабильно превосходит современные медицинские VLM и базовые методы PEFT в задачах zero-shot классификации, сегментации и детекции в различных предметных областях. Наш код доступен по адресу https://github.com/icon-lab/ACE-LoRA.
English
The success of CLIP-like vision-language models (VLMs) on natural images has inspired medical counterparts, yet existing approaches largely fall into two extremes: specialist models trained on single-domain data, which capture domain-specific details but generalize poorly, and generalist medical VLMs trained on multi-domain data, which retain broad semantics but dilute fine-grained diagnostic cues. Bridging this specialization-generalization trade-off remains challenging. To address this problem, we propose ACE-LoRA, a parameter-efficient adaptation framework for generalist medical VLMs that maintains robust zero-shot generalization. ACE-LoRA integrates Low-Rank Adaptation (LoRA) modules into frozen image-text encoders and introduces an Attention-based Context Enhancement Hypergraph Neural Network (ACE-HGNN) module that captures higher-order contextual interactions beyond pairwise similarity to enrich global representations with localized diagnostic cues, addressing a key limitation of prior Parameter-Efficient Fine-Tuning (PEFT) methods that overlook fine-grained details. To further enhance cross-modal alignment, we formulate a label-guided InfoNCE loss to effectively suppress false negatives between semantically related image-text pairs. Despite adding only 0.95M trainable parameters, ACE-LoRA consistently outperforms state-of-the-art medical VLMs and PEFT baselines across zero-shot classification, segmentation, and detection benchmarks spanning multiple domains. Our code is available at https://github.com/icon-lab/ACE-LoRA.