HeBA: Adaptadores Heterogéneos de Cuello de Botella para Modelos Robusto de Visión y Lenguaje

Resumen

La adaptación de modelos de visión y lenguaje (VLM) a gran escala, como CLIP, a tareas específicas suele adolecer de un enfoque arquitectónico "universal", donde los tokens visuales y textuales se procesan de manera uniforme mediante adaptadores genéricos y amplios. Sostenemos que esta homogeneidad ignora la naturaleza estructural distintiva de las modalidades: la localidad espacial en las imágenes frente a la densidad semántica en el texto. Para abordar esto, proponemos HeBA (Heterogeneous Bottleneck Adapter), un marco arquitectónico unificado que introduce sesgos inductivos estructurales específicos por modalidad. HeBA se aparta de los diseños convencionales mediante tres innovaciones arquitectónicas clave: (1) Heterogeneidad: Procesa los tokens visuales mediante convoluciones separables en profundidad 2D para preservar las correlaciones espaciales, mientras que procesa distintivamente los tokens de texto mediante proyecciones lineales densas para capturar relaciones semánticas; (2) Regularización por Cuello de Botella: A diferencia de los adaptadores expansivos estándar, HeBA emplea un cuello de botella de compresión (D -> D/4) que fuerza explícitamente al modelo a aprender características compactas y robustas y actúa como un regularizador estructural; y (3) Inicialización Activa de Gradientes: Desafiamos el paradigma restrictivo de la inicialización cero, utilizando una estrategia de inicialización Kaiming que garantiza un flujo de gradiente inicial suficiente para acelerar la convergencia sin comprometer el conocimiento preentrenado del backbone congelado. Experimentos exhaustivos demuestran que el diseño arquitectónicamente especializado de HeBA logra una estabilidad y precisión superiores, estableciendo un nuevo estado del arte en 11 benchmarks de pocos ejemplos. El código está disponible en https://github.com/Jahid12012021/VLM-HeBA.

English

Adapting large-scale Vision-Language Models (VLMs) like CLIP to downstream tasks often suffers from a "one-size-fits-all" architectural approach, where visual and textual tokens are processed uniformly by wide, generic adapters. We argue that this homogeneity ignores the distinct structural nature of the modalities -- spatial locality in images versus semantic density in text. To address this, we propose HeBA (Heterogeneous Bottleneck Adapter), a unified architectural framework that introduces modality-specific structural inductive biases. HeBA departs from conventional designs through three key architectural innovations: (1) Heterogeneity: It processes visual tokens via 2D depthwise-separable convolutions to preserve spatial correlations, while distinctively processing text tokens via dense linear projections to capture semantic relationships; (2) Bottleneck Regularization: Unlike standard expanding adapters, HeBA employs a compression bottleneck (D -> D/4) that explicitly forces the model to learn compact, robust features and acts as a structural regularizer; and (3) Active Gradient Initialization: We challenge the restrictive zero-initialization paradigm, utilizing a Kaiming initialization strategy that ensures sufficient initial gradient flow to accelerate convergence without compromising the frozen backbone's pre-trained knowledge. Extensive experiments demonstrate that HeBA's architecturally specialized design achieves superior stability and accuracy, establishing a new state-of-the-art on 11 few-shot benchmarks. Code is available at https://github.com/Jahid12012021/VLM-HeBA.

HeBA: Adaptadores Heterogéneos de Cuello de Botella para Modelos Robusto de Visión y Lenguaje

HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

Resumen

Support