CoME-VL : Mise à l'échelle de l'apprentissage vision-langage par encodeurs complémentaires multi-modaux

Résumé

Les modèles vision-langage (VLM) récents reposent généralement sur un unique encodeur visuel entraîné avec des objectifs image-texte contrasteurs, comme le pré-entraînement de style CLIP. Si les encodeurs contrasteurs sont efficaces pour l'alignement intermodal et la recherche, les encodeurs visuels auto-supervisés capturent souvent une sémantique dense plus riche et présentent une plus grande robustesse sur les tâches de reconnaissance et de compréhension. Dans ce travail, nous étudions comment mettre à l'échelle la fusion de ces représentations visuelles complémentaires pour la modélisation vision-langage. Nous proposons CoME-VL : Complementary Multi-Encoder Vision-Language, un cadre de fusion modulaire qui intègre un encodeur visuel entraîné de manière contrasteuse avec un encodeur auto-supervisé de type DINO. Notre approche effectue une fusion au niveau de la représentation par (i) une agrégation multi-couche guidée par l'entropie avec des projections à contrainte d'orthogonalité pour réduire la redondance, et (ii) une attention croisée améliorée par RoPE pour aligner des grilles de tokens hétérogènes et produire des tokens visuels fusionnés compacts. Les tokens fusionnés peuvent être injectés dans un LLM à décodeur uniquement avec des modifications minimales des pipelines VLM standard. Des expériences approfondies sur divers benchmarks vision-langage démontrent que CoME-VL surpasse systématiquement les modèles de référence à encodeur unique. En particulier, nous observons une amélioration moyenne de 4,9 % sur les tâches de compréhension visuelle et de 5,4 % sur les tâches de localisation. Notre méthode atteint des performances de pointe sur RefCOCO pour la détection tout en améliorant considérablement le modèle de base. Enfin, nous menons des études d'ablation sur la fusion de couches, le mélange de caractéristiques non redondantes et la capacité de fusion pour évaluer comment les signaux contrasteurs et auto-supervisés complémentaires affectent les performances des VLM.

English

Recent vision-language models (VLMs) typically rely on a single vision encoder trained with contrastive image-text objectives, such as CLIP-style pretraining. While contrastive encoders are effective for cross-modal alignment and retrieval, self-supervised visual encoders often capture richer dense semantics and exhibit stronger robustness on recognition and understanding tasks. In this work, we investigate how to scale the fusion of these complementary visual representations for vision-language modeling. We propose CoME-VL: Complementary Multi-Encoder Vision-Language, a modular fusion framework that integrates a contrastively trained vision encoder with a self-supervised DINO encoder. Our approach performs representation-level fusion by (i) entropy-guided multi-layer aggregation with orthogonality-constrained projections to reduce redundancy, and (ii) RoPE-enhanced cross-attention to align heterogeneous token grids and produce compact fused visual tokens. The fused tokens can be injected into a decoder-only LLM with minimal changes to standard VLM pipelines. Extensive experiments across diverse vision-language benchmarks demonstrate that CoME-VL consistently outperforms single-encoder baselines. In particular, we observe an average improvement of 4.9% on visual understanding tasks and 5.4% on grounding tasks. Our method achieves state-of-the-art performance on RefCOCO for detection while improving over the baseline by a large margin. Finally, we conduct ablation studies on layer merging, non-redundant feature mixing, and fusion capacity to evaluate how complementary contrastive and self-supervised signals affect VLM performance.

CoME-VL : Mise à l'échelle de l'apprentissage vision-langage par encodeurs complémentaires multi-modaux

CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

Résumé

Support