CoME-VL: Escalonando o Aprendizado Visão-Linguagem com Codificadores Complementares Multi-Encoder

Resumo

Os modelos visão-linguagem (VLM) atuais geralmente dependem de um único codificador visual treinado com objetivos contrastivos de imagem-texto, como o pré-treinamento estilo CLIP. Embora codificadores contrastivos sejam eficazes para alinhamento e recuperação cross-modal, codificadores visuais auto-supervisionados frequentemente capturam semântica densa mais rica e exibem maior robustez em tarefas de reconhecimento e compreensão. Neste trabalho, investigamos como escalar a fusão dessas representações visuais complementares para modelagem visão-linguagem. Propomos o CoME-VL: Complementary Multi-Encoder Vision-Language, um framework de fusão modular que integra um codificador visual treinado contrastivamente com um codificador DINO auto-supervisionado. Nossa abordagem realiza fusão em nível de representação através de (i) agregação multicamada guiada por entropia com projeções com restrição de ortogonalidade para reduzir redundância, e (ii) atenção cruzada aprimorada com RoPE para alinhar grades de tokens heterogêneas e produzir tokens visuais fundidos compactos. Os tokens fundidos podem ser injetados em um LLM apenas-decodificador com mudanças mínimas nos pipelines padrão de VLM. Experimentos extensos em diversas benchmarks visão-linguagem demonstram que o CoME-VL supera consistentemente as linhas de base com codificador único. Em particular, observamos uma melhoria média de 4,9% em tarefas de compreensão visual e 5,4% em tarefas de grounding. Nosso método alcança desempenho state-of-the-art no RefCOCO para detecção enquanto melhora significativamente a linha de base. Finalmente, conduzimos estudos de ablação sobre fusão de camadas, mistura de características não-redundantes e capacidade de fusão para avaliar como sinais contrastivos e auto-supervisionados complementares afetam o desempenho do VLM.

English

Recent vision-language models (VLMs) typically rely on a single vision encoder trained with contrastive image-text objectives, such as CLIP-style pretraining. While contrastive encoders are effective for cross-modal alignment and retrieval, self-supervised visual encoders often capture richer dense semantics and exhibit stronger robustness on recognition and understanding tasks. In this work, we investigate how to scale the fusion of these complementary visual representations for vision-language modeling. We propose CoME-VL: Complementary Multi-Encoder Vision-Language, a modular fusion framework that integrates a contrastively trained vision encoder with a self-supervised DINO encoder. Our approach performs representation-level fusion by (i) entropy-guided multi-layer aggregation with orthogonality-constrained projections to reduce redundancy, and (ii) RoPE-enhanced cross-attention to align heterogeneous token grids and produce compact fused visual tokens. The fused tokens can be injected into a decoder-only LLM with minimal changes to standard VLM pipelines. Extensive experiments across diverse vision-language benchmarks demonstrate that CoME-VL consistently outperforms single-encoder baselines. In particular, we observe an average improvement of 4.9% on visual understanding tasks and 5.4% on grounding tasks. Our method achieves state-of-the-art performance on RefCOCO for detection while improving over the baseline by a large margin. Finally, we conduct ablation studies on layer merging, non-redundant feature mixing, and fusion capacity to evaluate how complementary contrastive and self-supervised signals affect VLM performance.

CoME-VL: Escalonando o Aprendizado Visão-Linguagem com Codificadores Complementares Multi-Encoder

CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

Resumo

Support