CoME-VL: Scalabilità dell'Apprendimento Visione-Linguaggio con Encoder Multipli Complementari

Abstract

I modelli visione-linguaggio (VLM) recenti si basano tipicamente su un singolo encoder visivo addestrato con obiettivi contrastivi immagine-testo, come il pre-addestramento in stile CLIP. Sebbene gli encoder contrastivi siano efficaci per l'allineamento cross-modale e il retrieval, gli encoder visivi auto-supervisionati spesso catturano semantiche dense più ricche ed esibiscono una robustezza maggiore nelle attività di riconoscimento e comprensione. In questo lavoro, investigiamo come scalare la fusione di queste rappresentazioni visive complementari per la modellazione visione-linguaggio. Proponiamo CoME-VL: Complementary Multi-Encoder Vision-Language, un framework di fusione modulare che integra un encoder visivo addestrato in modo contrastivo con un encoder DINO auto-supervisionato. Il nostro approccio esegue una fusione a livello di rappresentazione mediante (i) aggregazione multi-livello guidata dall'entropia con proiezioni a vincolo di ortogonalità per ridurre la ridondanza, e (ii) cross-attention potenziata con RoPE per allineare griglie di token eterogenee e produrre token visivi fusi e compatti. I token fusi possono essere iniettati in un LLM a solo-decodifica con modifiche minime alle pipeline VLM standard. Esperimenti estesi su diversi benchmark visione-linguaggio dimostrano che CoME-VL supera costantemente i baseline a encoder singolo. In particolare, osserviamo un miglioramento medio del 4.9% sulle attività di comprensione visiva e del 5.4% sulle attività di grounding. Il nostro metodo raggiunge prestazioni state-of-the-art su RefCOCO per la detection, migliorando il baseline di un ampio margine. Infine, conduciamo studi di ablazione sulla fusione dei livelli, sul mixing di feature non ridondanti e sulla capacità di fusione per valutare come i segnali contrastivi e auto-supervisionati complementari influenzino le prestazioni dei VLM.

English

Recent vision-language models (VLMs) typically rely on a single vision encoder trained with contrastive image-text objectives, such as CLIP-style pretraining. While contrastive encoders are effective for cross-modal alignment and retrieval, self-supervised visual encoders often capture richer dense semantics and exhibit stronger robustness on recognition and understanding tasks. In this work, we investigate how to scale the fusion of these complementary visual representations for vision-language modeling. We propose CoME-VL: Complementary Multi-Encoder Vision-Language, a modular fusion framework that integrates a contrastively trained vision encoder with a self-supervised DINO encoder. Our approach performs representation-level fusion by (i) entropy-guided multi-layer aggregation with orthogonality-constrained projections to reduce redundancy, and (ii) RoPE-enhanced cross-attention to align heterogeneous token grids and produce compact fused visual tokens. The fused tokens can be injected into a decoder-only LLM with minimal changes to standard VLM pipelines. Extensive experiments across diverse vision-language benchmarks demonstrate that CoME-VL consistently outperforms single-encoder baselines. In particular, we observe an average improvement of 4.9% on visual understanding tasks and 5.4% on grounding tasks. Our method achieves state-of-the-art performance on RefCOCO for detection while improving over the baseline by a large margin. Finally, we conduct ablation studies on layer merging, non-redundant feature mixing, and fusion capacity to evaluate how complementary contrastive and self-supervised signals affect VLM performance.

CoME-VL: Scalabilità dell'Apprendimento Visione-Linguaggio con Encoder Multipli Complementari

CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

Abstract

Support