Escalonamento de Aprendizado de Representação Omnimodal Centrado em Linguagem

Resumo

Abordagens recentes de incorporação multimodal que utilizam modelos de linguagem multimodal de grande escala (MLLMs) ajustados com aprendizado contrastivo (CL) têm mostrado resultados promissores, mas as razões subjacentes por trás de sua superioridade permanecem pouco exploradas. Este trabalho argumenta que uma vantagem crucial das abordagens baseadas em MLLMs decorre do alinhamento cruzado implícito alcançado durante o pré-treinamento generativo, onde o decodificador de linguagem aprende a explorar sinais multimodais dentro de um espaço de representação compartilhado para gerar saídas unimodais. Através da análise da anisotropia e da estrutura de similaridade do kernel, confirmamos empiricamente que o alinhamento latente emerge dentro das representações dos MLLMs, permitindo que o CL sirva como uma etapa de refinamento leve. Aproveitando essa percepção, propomos uma estrutura de Incorporação Omnimodal Centrada na Linguagem, denominada LCO-Emb. Experimentos extensos em diversas arquiteturas e benchmarks demonstram sua eficácia, alcançando desempenho de ponta em várias modalidades. Além disso, identificamos uma Lei de Escalonamento Geração-Representação (GRSL), mostrando que as capacidades representacionais obtidas através do refinamento contrastivo escalam positivamente com as capacidades generativas do MLLM. Isso sugere que a melhoria das habilidades generativas evolui como um paradigma eficaz para aprimorar a qualidade da representação. Fornecemos uma explicação teórica da GRSL, que formalmente vincula a qualidade generativa do MLLM ao limite superior de seu desempenho representacional, e a validamos em uma tarefa desafiadora de recuperação visual-documental de baixo recurso, mostrando que o pré-treinamento generativo contínuo antes do CL pode aprimorar ainda mais o potencial das capacidades de incorporação de um modelo. Códigos, modelos e recursos estão disponíveis em https://github.com/LCO-Embedding/LCO-Embedding.

English

Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.

Escalonamento de Aprendizado de Representação Omnimodal Centrado em Linguagem

Scaling Language-Centric Omnimodal Representation Learning

Resumo

Support