HeBA: Heterogene Bottleneck-Adapter für robuste visuell-sprachliche Modelle

Zusammenfassung

Die Anpassung großskaliger Vision-Language-Modelle (VLMs) wie CLIP an nachgelagerte Aufgaben leidet häufig unter einem architektonischen "Einheitsansatz", bei dem visuelle und textuelle Token einheitlich durch breite, generische Adapter verarbeitet werden. Wir argumentieren, dass diese Homogenität die unterschiedliche strukturelle Natur der Modalitäten ignoriert – räumliche Lokalität in Bildern versus semantische Dichte in Text. Um dies zu adressieren, schlagen wir HeBA (Heterogeneous Bottleneck Adapter) vor, einen vereinheitlichten architektonischen Rahmen, der modalitätsspezifische strukturelle Induktionsverzerrungen einführt. HeBA weicht durch drei wesentliche architektonische Innovationen von konventionellen Designs ab: (1) Heterogenität: Es verarbeitet visuelle Token mittels 2D-Tiefenweise-Trennbaren Faltungen, um räumliche Korrelationen zu erhalten, während Text-Token distinctiv durch dichte lineare Projektionen verarbeitet werden, um semantische Beziehungen zu erfassen; (2) Bottleneck-Regularisierung: Im Gegensatz zu standardmäßig erweiternden Adaptern verwendet HeBA einen Kompressions-Engpass (D -> D/4), der das Modell explizit zwingt, kompakte, robuste Merkmale zu lernen und als struktureller Regularisierer wirkt; und (3) Aktive Gradienteninitialisierung: Wir hinterfragen das restriktive Null-Initialisierungs-Paradigma und nutzen eine Kaiming-Initialisierungsstrategie, die einen ausreichenden anfänglichen Gradientenfluss sicherstellt, um die Konvergenz zu beschleunigen, ohne das vortrainierte Wissen des eingefrorenen Backbones zu beeinträchtigen. Umfangreiche Experimente belegen, dass HeBAs architektonisch spezialisiertes Design überlegene Stabilität und Genauigkeit erreicht und einen neuen State-of-the-Art auf 11 Few-Shot-Benchmarks etabliert. Der Code ist verfügbar unter https://github.com/Jahid12012021/VLM-HeBA.

English

Adapting large-scale Vision-Language Models (VLMs) like CLIP to downstream tasks often suffers from a "one-size-fits-all" architectural approach, where visual and textual tokens are processed uniformly by wide, generic adapters. We argue that this homogeneity ignores the distinct structural nature of the modalities -- spatial locality in images versus semantic density in text. To address this, we propose HeBA (Heterogeneous Bottleneck Adapter), a unified architectural framework that introduces modality-specific structural inductive biases. HeBA departs from conventional designs through three key architectural innovations: (1) Heterogeneity: It processes visual tokens via 2D depthwise-separable convolutions to preserve spatial correlations, while distinctively processing text tokens via dense linear projections to capture semantic relationships; (2) Bottleneck Regularization: Unlike standard expanding adapters, HeBA employs a compression bottleneck (D -> D/4) that explicitly forces the model to learn compact, robust features and acts as a structural regularizer; and (3) Active Gradient Initialization: We challenge the restrictive zero-initialization paradigm, utilizing a Kaiming initialization strategy that ensures sufficient initial gradient flow to accelerate convergence without compromising the frozen backbone's pre-trained knowledge. Extensive experiments demonstrate that HeBA's architecturally specialized design achieves superior stability and accuracy, establishing a new state-of-the-art on 11 few-shot benchmarks. Code is available at https://github.com/Jahid12012021/VLM-HeBA.

HeBA: Heterogene Bottleneck-Adapter für robuste visuell-sprachliche Modelle

HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

Zusammenfassung

Support