CoME-VL: Масштабирование комплементарного многомодульного обучения «зрение-язык»

Аннотация

Современные модели компьютерного зрения и естественного языка (vision-language models, VLM) обычно используют единственный визуальный кодировщик, обученный с помощью контрастных задач сопоставления изображений и текста, таких как предварительное обучение в стиле CLIP. Хотя контрастные кодировщики эффективны для кросс-модального согласования и поиска, самообучаемые визуальные кодировщики часто захватывают более богатую плотную семантику и демонстрируют повышенную устойчивость в задачах распознавания и понимания. В данной работе мы исследуем, как масштабировать объединение этих комплементарных визуальных представлений для моделирования в области компьютерного зрения и естественного языка. Мы предлагаем CoME-VL (Complementary Multi-Encoder Vision-Language) — модульную архитектуру слияния, которая интегрирует контрастно обученный визуальный кодировщик с самообучаемым кодировщиком DINO. Наш подход выполняет слияние на уровне представлений с помощью (i) агрегации по нескольким слоям на основе энтропии с ортогонально ограниченными проекциями для уменьшения избыточности и (ii) кросс-внимания, усиленного RoPE (Rotary Position Embedding), для согласования разнородных токенных сеток и генерации компактных объединенных визуальных токенов. Объединенные токены могут быть интегрированы в LLM, использующую только декодер, с минимальными изменениями стандартных конвейеров VLM. Многочисленные эксперименты на различных наборах данных для задач компьютерного зрения и естественного языка демонстрируют, что CoME-VL стабильно превосходит базовые модели с одним кодировщиком. В частности, мы наблюдаем среднее улучшение на 4.9% в задачах визуального понимания и на 5.4% в задачах локализации. Наш метод достигает наилучших результатов на наборе данных RefCOCO для обнаружения объектов, значительно опережая базовый показатель. Наконец, мы проводим абляционные исследования по слиянию слоев, смешению нередундантных признаков и емкости слияния, чтобы оценить, как комплементарные контрастные и самообучаемые сигналы влияют на производительность VLM.

English

Recent vision-language models (VLMs) typically rely on a single vision encoder trained with contrastive image-text objectives, such as CLIP-style pretraining. While contrastive encoders are effective for cross-modal alignment and retrieval, self-supervised visual encoders often capture richer dense semantics and exhibit stronger robustness on recognition and understanding tasks. In this work, we investigate how to scale the fusion of these complementary visual representations for vision-language modeling. We propose CoME-VL: Complementary Multi-Encoder Vision-Language, a modular fusion framework that integrates a contrastively trained vision encoder with a self-supervised DINO encoder. Our approach performs representation-level fusion by (i) entropy-guided multi-layer aggregation with orthogonality-constrained projections to reduce redundancy, and (ii) RoPE-enhanced cross-attention to align heterogeneous token grids and produce compact fused visual tokens. The fused tokens can be injected into a decoder-only LLM with minimal changes to standard VLM pipelines. Extensive experiments across diverse vision-language benchmarks demonstrate that CoME-VL consistently outperforms single-encoder baselines. In particular, we observe an average improvement of 4.9% on visual understanding tasks and 5.4% on grounding tasks. Our method achieves state-of-the-art performance on RefCOCO for detection while improving over the baseline by a large margin. Finally, we conduct ablation studies on layer merging, non-redundant feature mixing, and fusion capacity to evaluate how complementary contrastive and self-supervised signals affect VLM performance.

CoME-VL: Масштабирование комплементарного многомодульного обучения «зрение-язык»

CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

Аннотация

Support