CoME-VL: Skalierung komplementärer Multi-Encoder-Vision-Sprache-Lernverfahren

Zusammenfassung

Aktuelle Vision-Sprache-Modelle (VLMs) verlassen sich typischerweise auf einen einzigen Vision-Encoder, der mit kontrastiven Bild-Text-Zielen, wie CLIP-artigem Pre-Training, trainiert wurde. Während kontrastive Encoder effektiv für cross-modale Ausrichtung und Retrieval sind, erfassen selbstüberwachte visuelle Encoder oft reichhaltigere dichte Semantik und zeigen eine stärkere Robustheit bei Erkennungs- und Verstehensaufgaben. In dieser Arbeit untersuchen wir, wie die Fusion dieser komplementären visuellen Repräsentationen für Vision-Sprache-Modellierung skaliert werden kann. Wir schlagen CoME-VL vor: Complementary Multi-Encoder Vision-Language, einen modularen Fusionsframework, der einen kontrastiv trainierten Vision-Encoder mit einem selbstüberwachten DINO-Encoder integriert. Unser Ansatz führt eine Repräsentations-Fusion durch mittels (i) entropiegeführter Multi-Layer-Aggregation mit Orthogonalitäts-beschränkten Projektionen zur Redundanzreduzierung und (ii) RoPE-erweitertem Cross-Attention, um heterogene Token-Gitter auszurichten und kompakte fusionierte visuelle Tokens zu erzeugen. Die fusionierten Tokens können mit minimalen Änderungen an standardisierten VLM-Pipelines in einen Decoder-only-LLM eingefügt werden. Umfangreiche Experimente über diverse Vision-Sprache-Benchmarks demonstrieren, dass CoME-VL durchgängig Single-Encoder-Baselines übertrifft. Insbesondere beobachten wir eine durchschnittliche Verbesserung von 4,9 % bei visuellen Verstehensaufgaben und 5,4 % bei Grounding-Aufgaben. Unsere Methode erreicht State-of-the-Art-Performance auf RefCOCO für Detektion und verbessert die Baseline dabei deutlich. Abschließend führen wir Ablationsstudien zu Layer-Verschmelzung, nicht-redundanter Feature-Mischung und Fusionskapazität durch, um zu evaluieren, wie komplementäre kontrastive und selbstüberwachte Signale die VLM-Leistung beeinflussen.

English

Recent vision-language models (VLMs) typically rely on a single vision encoder trained with contrastive image-text objectives, such as CLIP-style pretraining. While contrastive encoders are effective for cross-modal alignment and retrieval, self-supervised visual encoders often capture richer dense semantics and exhibit stronger robustness on recognition and understanding tasks. In this work, we investigate how to scale the fusion of these complementary visual representations for vision-language modeling. We propose CoME-VL: Complementary Multi-Encoder Vision-Language, a modular fusion framework that integrates a contrastively trained vision encoder with a self-supervised DINO encoder. Our approach performs representation-level fusion by (i) entropy-guided multi-layer aggregation with orthogonality-constrained projections to reduce redundancy, and (ii) RoPE-enhanced cross-attention to align heterogeneous token grids and produce compact fused visual tokens. The fused tokens can be injected into a decoder-only LLM with minimal changes to standard VLM pipelines. Extensive experiments across diverse vision-language benchmarks demonstrate that CoME-VL consistently outperforms single-encoder baselines. In particular, we observe an average improvement of 4.9% on visual understanding tasks and 5.4% on grounding tasks. Our method achieves state-of-the-art performance on RefCOCO for detection while improving over the baseline by a large margin. Finally, we conduct ablation studies on layer merging, non-redundant feature mixing, and fusion capacity to evaluate how complementary contrastive and self-supervised signals affect VLM performance.

CoME-VL: Skalierung komplementärer Multi-Encoder-Vision-Sprache-Lernverfahren

CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

Zusammenfassung

Support