HeBA : Adaptateurs à Goulot d'Étranglement Hétérogènes pour des Modèles Vision-Langage Robuste

Résumé

L'adaptation des modèles vision-langue (VLM) à grande échelle, comme CLIP, aux tâches en aval souffre souvent d'une approche architecturale « universelle », où les tokens visuels et textuels sont traités de manière uniforme par des adaptateurs larges et génériques. Nous soutenons que cette homogénéité ignore la nature structurelle distincte des modalités – la localité spatiale dans les images contre la densité sémantique dans le texte. Pour y remédier, nous proposons HeBA (Heterogeneous Bottleneck Adapter), un cadre architectural unifié qui introduit des biais inductifs structurels spécifiques aux modalités. HeBA s'écarte des conceptions conventionnelles grâce à trois innovations architecturales clés : (1) Hétérogénéité : Il traite les tokens visuels via des convolutions séparables en profondeur 2D pour préserver les corrélations spatiales, tandis qu'il traite distinctement les tokens textuels via des projections linéaires denses pour capturer les relations sémantiques ; (2) Régularisation par goulot d'étranglement : Contrairement aux adaptateurs à expansion standard, HeBA utilise un goulot d'étranglement de compression (D -> D/4) qui force explicitement le modèle à apprendre des caractéristiques compactes et robustes et agit comme un régulariseur structurel ; et (3) Initialisation active du gradient : Nous remettons en cause le paradigme restrictif de l'initialisation à zéro, en utilisant une stratégie d'initialisation de Kaiming qui assure un flux de gradient initial suffisant pour accélérer la convergence sans compromettre les connaissances pré-entraînées du backbone gelé. Des expériences approfondies démontrent que la conception architecturale spécialisée de HeBA atteint une stabilité et une précision supérieures, établissant un nouvel état de l'art sur 11 benchmarks en few-shot. Le code est disponible à l'adresse https://github.com/Jahid12012021/VLM-HeBA.

English

Adapting large-scale Vision-Language Models (VLMs) like CLIP to downstream tasks often suffers from a "one-size-fits-all" architectural approach, where visual and textual tokens are processed uniformly by wide, generic adapters. We argue that this homogeneity ignores the distinct structural nature of the modalities -- spatial locality in images versus semantic density in text. To address this, we propose HeBA (Heterogeneous Bottleneck Adapter), a unified architectural framework that introduces modality-specific structural inductive biases. HeBA departs from conventional designs through three key architectural innovations: (1) Heterogeneity: It processes visual tokens via 2D depthwise-separable convolutions to preserve spatial correlations, while distinctively processing text tokens via dense linear projections to capture semantic relationships; (2) Bottleneck Regularization: Unlike standard expanding adapters, HeBA employs a compression bottleneck (D -> D/4) that explicitly forces the model to learn compact, robust features and acts as a structural regularizer; and (3) Active Gradient Initialization: We challenge the restrictive zero-initialization paradigm, utilizing a Kaiming initialization strategy that ensures sufficient initial gradient flow to accelerate convergence without compromising the frozen backbone's pre-trained knowledge. Extensive experiments demonstrate that HeBA's architecturally specialized design achieves superior stability and accuracy, establishing a new state-of-the-art on 11 few-shot benchmarks. Code is available at https://github.com/Jahid12012021/VLM-HeBA.

HeBA : Adaptateurs à Goulot d'Étranglement Hétérogènes pour des Modèles Vision-Langage Robuste

HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

Résumé

Support