HeBA: Adaptadores de Gargalo Heterogêneos para Modelos Robustos de Visão e Linguagem

Resumo

A adaptação de modelos de larga escala de Visão e Linguagem (VLMs), como o CLIP, para tarefas específicas (downstream) frequentemente sofre com uma abordagem arquitetônica "tamanho único", na qual os *tokens* visuais e textuais são processados de forma uniforme por adaptadores genéricos e amplos. Argumentamos que essa homogeneidade ignora a natureza estrutural distinta das modalidades – a localidade espacial nas imagens versus a densidade semântica no texto. Para resolver isso, propomos o HeBA (*Heterogeneous Bottleneck Adapter*), uma estrutura arquitetônica unificada que introduz vieses indutivos estruturais específicos por modalidade. O HeBA se afasta dos projetos convencionais por meio de três inovações arquitetônicas principais: (1) **Heterogeneidade**: Processa os *tokens* visuais por meio de convoluções separáveis em profundidade 2D para preservar correlações espaciais, enquanto processa distintamente os *tokens* textuais por meio de projeções lineares densas para capturar relações semânticas; (2) **Regularização por Gargalo (*Bottleneck*)**: Ao contrário dos adaptadores de expansão padrão, o HeBA emprega um gargalo de compressão (D -> D/4) que força explicitamente o modelo a aprender características compactas e robustas e atua como um regularizador estrutural; e (3) **Inicialização Ativa de Gradientes**: Desafiamos o paradigma restritivo de inicialização zero, utilizando uma estratégia de inicialização Kaiming que garante um fluxo de gradiente inicial suficiente para acelerar a convergência sem comprometer o conhecimento pré-treinado do *backbone* congelado. Experimentos extensivos demonstram que o projeto arquitetonicamente especializado do HeBA alcança uma estabilidade e precisão superiores, estabelecendo um novo estado da arte em 11 *benchmarks* de poucos exemplos (*few-shot*). O código está disponível em https://github.com/Jahid12012021/VLM-HeBA.

English

Adapting large-scale Vision-Language Models (VLMs) like CLIP to downstream tasks often suffers from a "one-size-fits-all" architectural approach, where visual and textual tokens are processed uniformly by wide, generic adapters. We argue that this homogeneity ignores the distinct structural nature of the modalities -- spatial locality in images versus semantic density in text. To address this, we propose HeBA (Heterogeneous Bottleneck Adapter), a unified architectural framework that introduces modality-specific structural inductive biases. HeBA departs from conventional designs through three key architectural innovations: (1) Heterogeneity: It processes visual tokens via 2D depthwise-separable convolutions to preserve spatial correlations, while distinctively processing text tokens via dense linear projections to capture semantic relationships; (2) Bottleneck Regularization: Unlike standard expanding adapters, HeBA employs a compression bottleneck (D -> D/4) that explicitly forces the model to learn compact, robust features and acts as a structural regularizer; and (3) Active Gradient Initialization: We challenge the restrictive zero-initialization paradigm, utilizing a Kaiming initialization strategy that ensures sufficient initial gradient flow to accelerate convergence without compromising the frozen backbone's pre-trained knowledge. Extensive experiments demonstrate that HeBA's architecturally specialized design achieves superior stability and accuracy, establishing a new state-of-the-art on 11 few-shot benchmarks. Code is available at https://github.com/Jahid12012021/VLM-HeBA.

HeBA: Adaptadores de Gargalo Heterogêneos para Modelos Robustos de Visão e Linguagem

HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

Resumo

Support