CoME-VL: Schaalvergroting van Complementair Multi-Encoder Visie-Taal Leren

Samenvatting

Recente vision-language modellen (VLM's) vertrouwen doorgaans op een enkele visuele encoder die is getraind met contrastieve beeld-tekstdoelstellingen, zoals CLIP-stijl pretraining. Hoewel contrastieve encoders effectief zijn voor cross-modale alignering en retrieval, vangen zelf-gesuperviseerde visuele encoders vaak rijkere, dense semantiek in en vertonen ze een sterkere robuustheid bij herkenning- en begripstaken. In dit werk onderzoeken we hoe de fusie van deze complementaire visuele representaties opgeschaald kan worden voor vision-language modellering. Wij stellen CoME-VL voor: Complementary Multi-Encoder Vision-Language, een modulair fusieraamwerk dat een contrastief getrainde visuele encoder integreert met een zelf-gesuperviseerde DINO-encoder. Onze aanpak voert fusie op representatieniveau uit door (i) entropie-geleide multi-layer aggregatie met orthogonaliteitsbeperkte projecties om redundantie te verminderen, en (ii) RoPE-verbeterde cross-attentie om heterogene tokenroosters uit te lijnen en compacte gefuseerde visuele tokens te produceren. De gefuseerde tokens kunnen met minimale aanpassingen aan standaard VLM-pipelines in een decoder-only LLM worden geïnjecteerd. Uitgebreide experimenten op diverse vision-language benchmarks tonen aan dat CoME-VL consistent beter presteert dan single-encoder basislijnen. Met name observeren we een gemiddelde verbetering van 4,9% op visuele begripstaken en 5,4% op groundingtaken. Onze methode behaalt state-of-the-art prestaties op RefCOCO voor detectie, terwijl deze de basislijn met een grote marge verbetert. Ten slotte voeren we ablatiestudies uit naar laagsamenvoeging, niet-redundante kenmerkvermenging en fusiecapaciteit om te evalueren hoe complementaire contrastieve en zelf-gesuperviseerde signalen de VLM-prestaties beïnvloeden.

English

Recent vision-language models (VLMs) typically rely on a single vision encoder trained with contrastive image-text objectives, such as CLIP-style pretraining. While contrastive encoders are effective for cross-modal alignment and retrieval, self-supervised visual encoders often capture richer dense semantics and exhibit stronger robustness on recognition and understanding tasks. In this work, we investigate how to scale the fusion of these complementary visual representations for vision-language modeling. We propose CoME-VL: Complementary Multi-Encoder Vision-Language, a modular fusion framework that integrates a contrastively trained vision encoder with a self-supervised DINO encoder. Our approach performs representation-level fusion by (i) entropy-guided multi-layer aggregation with orthogonality-constrained projections to reduce redundancy, and (ii) RoPE-enhanced cross-attention to align heterogeneous token grids and produce compact fused visual tokens. The fused tokens can be injected into a decoder-only LLM with minimal changes to standard VLM pipelines. Extensive experiments across diverse vision-language benchmarks demonstrate that CoME-VL consistently outperforms single-encoder baselines. In particular, we observe an average improvement of 4.9% on visual understanding tasks and 5.4% on grounding tasks. Our method achieves state-of-the-art performance on RefCOCO for detection while improving over the baseline by a large margin. Finally, we conduct ablation studies on layer merging, non-redundant feature mixing, and fusion capacity to evaluate how complementary contrastive and self-supervised signals affect VLM performance.

CoME-VL: Schaalvergroting van Complementair Multi-Encoder Visie-Taal Leren

CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

Samenvatting

Support