ChatPaper.aiChatPaper

Масштабирование обучения универсальным представлениям с акцентом на язык

Scaling Language-Centric Omnimodal Representation Learning

October 13, 2025
Авторы: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong
cs.AI

Аннотация

Недавние подходы к мультимодальным эмбеддингам, использующие мультимодальные большие языковые модели (MLLM), дообученные с помощью контрастивного обучения (CL), показали многообещающие результаты, однако основные причины их превосходства остаются недостаточно изученными. В данной работе утверждается, что ключевое преимущество подходов на основе MLLM заключается в неявном кросс-модальном выравнивании, достигаемом в ходе генеративного предобучения, когда языковой декодер учится использовать мультимодальные сигналы в рамках общего пространства представлений для генерации унимодальных выходов. Анализируя анизотропию и структуру сходства ядра, мы эмпирически подтверждаем, что скрытое выравнивание возникает в представлениях MLLM, что позволяет CL выступать в качестве легковесного этапа доработки. Опираясь на это понимание, мы предлагаем фреймворк Language-Centric Omnimodal Embedding (LCO-Emb). Многочисленные эксперименты на различных архитектурах и бенчмарках демонстрируют его эффективность, достигая наилучших результатов во всех модальностях. Кроме того, мы выявляем Закон масштабирования генерации и представления (GRSL), показывая, что репрезентационные возможности, полученные с помощью контрастивной доработки, масштабируются пропорционально генеративным способностям MLLM. Это свидетельствует о том, что улучшение генеративных способностей становится эффективной парадигмой для повышения качества представлений. Мы предоставляем теоретическое объяснение GRSL, которое формально связывает качество генерации MLLM с верхней границей её репрезентационной производительности, и подтверждаем его на сложной задаче поиска визуально-документальной информации в условиях ограниченных ресурсов, показывая, что непрерывное генеративное предобучение перед CL может дополнительно повысить потенциал эмбеддинговых возможностей модели. Коды, модели и ресурсы доступны по адресу https://github.com/LCO-Embedding/LCO-Embedding.
English
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
PDF944October 15, 2025