HeBA: Гетерогенные адаптеры узких мест для устойчивых визуально-языковых моделей

Аннотация

Адаптация крупномасштабных моделей «визуальный язык» (Vision-Language Models, VLM), таких как CLIP, для решения последующих задач часто страдает от архитектурного подхода «универсальность для всех», при котором визуальные и текстовые токены обрабатываются единообразно с помощью широких, обобщенных адаптеров. Мы утверждаем, что такая однородность игнорирует различную структурную природу модальностей — пространственную локальность в изображениях в противовес семантической плотности в тексте. Чтобы решить эту проблему, мы предлагаем HeBA (Heterogeneous Bottleneck Adapter) — унифицированную архитектурную структуру, которая вводит модально-специфичные структурные индуктивные смещения. HeBA отличается от традиционных конструкций за счет трех ключевых архитектурных нововведений: (1) **Гетерогенность**: она обрабатывает визуальные токены с помощью двумерных depthwise separable сверток для сохранения пространственных корреляций, в то время как текстовые токены обрабатываются отдельно с помощью плотных линейных проекций для улавливания семантических связей; (2) **Регуляризация через узкое место (Bottleneck)**: в отличие от стандартных расширяющихся адаптеров, HeBA использует компрессионное узкое место (D -> D/4), которое явно заставляет модель изучать компактные, устойчивые признаки и действует как структурный регуляризатор; и (3) **Активная инициализация градиента**: мы оспариваем ограничивающую парадигму нулевой инициализации, используя стратегию инициализации Kaiming, которая обеспечивает достаточный начальный поток градиентов для ускорения сходимости без ущерба для предварительно обученных знаний замороженной базовой модели. Многочисленные эксперименты демонстрируют, что архитектурно-специализированный дизайн HeBA обеспечивает превосходную стабильность и точность, устанавливая новый state-of-the-art на 11 бенчмарках по обучению с малым числом примеров (few-shot). Код доступен по адресу https://github.com/Jahid12012021/VLM-HeBA.

English

Adapting large-scale Vision-Language Models (VLMs) like CLIP to downstream tasks often suffers from a "one-size-fits-all" architectural approach, where visual and textual tokens are processed uniformly by wide, generic adapters. We argue that this homogeneity ignores the distinct structural nature of the modalities -- spatial locality in images versus semantic density in text. To address this, we propose HeBA (Heterogeneous Bottleneck Adapter), a unified architectural framework that introduces modality-specific structural inductive biases. HeBA departs from conventional designs through three key architectural innovations: (1) Heterogeneity: It processes visual tokens via 2D depthwise-separable convolutions to preserve spatial correlations, while distinctively processing text tokens via dense linear projections to capture semantic relationships; (2) Bottleneck Regularization: Unlike standard expanding adapters, HeBA employs a compression bottleneck (D -> D/4) that explicitly forces the model to learn compact, robust features and acts as a structural regularizer; and (3) Active Gradient Initialization: We challenge the restrictive zero-initialization paradigm, utilizing a Kaiming initialization strategy that ensures sufficient initial gradient flow to accelerate convergence without compromising the frozen backbone's pre-trained knowledge. Extensive experiments demonstrate that HeBA's architecturally specialized design achieves superior stability and accuracy, establishing a new state-of-the-art on 11 few-shot benchmarks. Code is available at https://github.com/Jahid12012021/VLM-HeBA.

HeBA: Гетерогенные адаптеры узких мест для устойчивых визуально-языковых моделей

HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

Аннотация

Support