CoME-VL: Escalando el Aprendizaje Visión-Lenguaje con Codificadores Multi-Complementarios

Resumen

Los modelos visión-lenguaje (VLM) actuales generalmente dependen de un único codificador visual entrenado con objetivos de contraste imagen-texto, como el preentrenamiento estilo CLIP. Si bien los codificadores contrastivos son efectivos para la alineación y recuperación multimodal, los codificadores visuales auto-supervisados suelen capturar semántica densa más rica y exhiben mayor robustez en tareas de reconocimiento y comprensión. En este trabajo, investigamos cómo escalar la fusión de estas representaciones visuales complementarias para el modelado visión-lenguaje. Proponemos CoME-VL: Complementary Multi-Encoder Vision-Language, un marco de fusión modular que integra un codificador visual entrenado contrastivamente con un codificador auto-supervisado DINO. Nuestro enfoque realiza la fusión a nivel de representación mediante (i) agregación multicapa guiada por entropía con proyecciones de ortogonalidad restringida para reducir la redundancia, y (ii) atención cruzada mejorada con RoPE para alinear mallas de tokens heterogéneas y producir tokens visuales fusionados compactos. Los tokens fusionados pueden inyectarse en un LLM de solo decodificación con cambios mínimos en las canalizaciones estándar de VLM. Experimentos exhaustivos en diversos benchmarks de visión-lenguaje demuestran que CoME-VL supera consistentemente a los baselines de codificador único. En particular, observamos una mejora promedio del 4.9% en tareas de comprensión visual y del 5.4% en tareas de grounding. Nuestro método logra un rendimiento state-of-the-art en RefCOCO para detección, mejorando sustancialmente sobre el baseline. Finalmente, realizamos estudios de ablación sobre fusión de capas, mezcla de características no redundantes y capacidad de fusión para evaluar cómo las señales contrastivas y auto-supervisadas complementarias afectan el rendimiento de los VLM.

English

Recent vision-language models (VLMs) typically rely on a single vision encoder trained with contrastive image-text objectives, such as CLIP-style pretraining. While contrastive encoders are effective for cross-modal alignment and retrieval, self-supervised visual encoders often capture richer dense semantics and exhibit stronger robustness on recognition and understanding tasks. In this work, we investigate how to scale the fusion of these complementary visual representations for vision-language modeling. We propose CoME-VL: Complementary Multi-Encoder Vision-Language, a modular fusion framework that integrates a contrastively trained vision encoder with a self-supervised DINO encoder. Our approach performs representation-level fusion by (i) entropy-guided multi-layer aggregation with orthogonality-constrained projections to reduce redundancy, and (ii) RoPE-enhanced cross-attention to align heterogeneous token grids and produce compact fused visual tokens. The fused tokens can be injected into a decoder-only LLM with minimal changes to standard VLM pipelines. Extensive experiments across diverse vision-language benchmarks demonstrate that CoME-VL consistently outperforms single-encoder baselines. In particular, we observe an average improvement of 4.9% on visual understanding tasks and 5.4% on grounding tasks. Our method achieves state-of-the-art performance on RefCOCO for detection while improving over the baseline by a large margin. Finally, we conduct ablation studies on layer merging, non-redundant feature mixing, and fusion capacity to evaluate how complementary contrastive and self-supervised signals affect VLM performance.

CoME-VL: Escalando el Aprendizaje Visión-Lenguaje con Codificadores Multi-Complementarios

CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

Resumen

Support