HeBA: Adattatori a Collo di Bottiglia Eterogenei per Modelli Visivo-Linguistici Robusti

Abstract

L'adattamento di modelli visione-linguaggio (VLM) su larga scala come CLIP a compiti downstream soffre spesso di un approccio architetturale "universale", in cui i token visivi e testuali vengono processati in modo uniforme da adattatori ampi e generici. Sosteniamo che questa omogeneità ignori la natura strutturale distinta delle modalità: la località spaziale nelle immagini rispetto alla densità semantica nel testo. Per affrontare ciò, proponiamo HeBA (Heterogeneous Bottleneck Adapter), un framework architetturale unificato che introduce *inductive bias* strutturali specifici per modalità. HeBA si discosta dai progetti convenzionali attraverso tre innovazioni architetturali chiave: (1) *Eterogeneità*: elabora i token visivi tramite convoluzioni depthwise-separabili 2D per preservare le correlazioni spaziali, mentre elabora distintamente i token testuali tramite proiezioni lineari dense per catturare le relazioni semantiche; (2) *Regolarizzazione del Collo di Bottiglia*: a differenza degli adattatori standard a espansione, HeBA impiega un collo di bottiglia di compressione (D -> D/4) che forza esplicitamente il modello ad apprendere feature compatte e robuste e agisce come regolarizzatore strutturale; e (3) *Inizializzazione Attiva del Gradiente*: Contestiamo il paradigma restrittivo dell'inizializzazione zero, utilizzando una strategia di inizializzazione Kaiming che garantisce un flusso di gradiente iniziale sufficiente per accelerare la convergenza senza compromettere la conoscenza pre-addestrata del backbone congelato. Esperimenti estesi dimostrano che il design architetturalmente specializzato di HeBA raggiunge una stabilità e un'accuratezza superiori, stabilendo un nuovo stato dell'arte su 11 benchmark few-shot. Il codice è disponibile all'indirizzo https://github.com/Jahid12012021/VLM-HeBA.

English

Adapting large-scale Vision-Language Models (VLMs) like CLIP to downstream tasks often suffers from a "one-size-fits-all" architectural approach, where visual and textual tokens are processed uniformly by wide, generic adapters. We argue that this homogeneity ignores the distinct structural nature of the modalities -- spatial locality in images versus semantic density in text. To address this, we propose HeBA (Heterogeneous Bottleneck Adapter), a unified architectural framework that introduces modality-specific structural inductive biases. HeBA departs from conventional designs through three key architectural innovations: (1) Heterogeneity: It processes visual tokens via 2D depthwise-separable convolutions to preserve spatial correlations, while distinctively processing text tokens via dense linear projections to capture semantic relationships; (2) Bottleneck Regularization: Unlike standard expanding adapters, HeBA employs a compression bottleneck (D -> D/4) that explicitly forces the model to learn compact, robust features and acts as a structural regularizer; and (3) Active Gradient Initialization: We challenge the restrictive zero-initialization paradigm, utilizing a Kaiming initialization strategy that ensures sufficient initial gradient flow to accelerate convergence without compromising the frozen backbone's pre-trained knowledge. Extensive experiments demonstrate that HeBA's architecturally specialized design achieves superior stability and accuracy, establishing a new state-of-the-art on 11 few-shot benchmarks. Code is available at https://github.com/Jahid12012021/VLM-HeBA.

HeBA: Adattatori a Collo di Bottiglia Eterogenei per Modelli Visivo-Linguistici Robusti

HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

Abstract

Support