ChatPaper.aiChatPaper

Mise à l'échelle de l'apprentissage de représentations omnimodales centré sur le langage

Scaling Language-Centric Omnimodal Representation Learning

October 13, 2025
papers.authors: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong
cs.AI

papers.abstract

Les approches récentes d'incorporation multimodale exploitant des modèles de langage multimodaux de grande taille (MLLMs) affinés par apprentissage contrastif (CL) ont montré des résultats prometteurs, mais les raisons sous-jacentes de leur supériorité restent peu explorées. Ce travail soutient qu'un avantage crucial des approches basées sur les MLLMs découle de l'alignement intermodal implicite réalisé lors du pré-entraînement génératif, où le décodeur de langage apprend à exploiter les signaux multimodaux dans un espace de représentation partagé pour générer des sorties unimodales. À travers l'analyse de l'anisotropie et de la structure de similarité du noyau, nous confirmons empiriquement qu'un alignement latent émerge dans les représentations des MLLMs, permettant au CL de servir comme une étape de raffinement légère. En tirant parti de cette observation, nous proposons un cadre d'incorporation omnimodale centré sur le langage, nommé LCO-Emb. Des expériences approfondies sur divers modèles de base et benchmarks démontrent son efficacité, atteignant des performances de pointe à travers les modalités. De plus, nous identifions une loi d'échelle génération-représentation (GRSL), montrant que les capacités représentationnelles acquises par le raffinement contrastif évoluent positivement avec les capacités génératives du MLLM. Cela suggère que l'amélioration des capacités génératives constitue un paradigme efficace pour renforcer la qualité de la représentation. Nous fournissons une explication théorique de la GRSL, qui relie formellement la qualité générative du MLLM à la limite supérieure de ses performances représentationnelles, et la validons sur une tâche de recherche visuelle-documentaire difficile et à faible ressource, montrant qu'un pré-entraînement génératif continu avant le CL peut encore améliorer le potentiel des capacités d'incorporation d'un modèle. Les codes, modèles et ressources sont disponibles à l'adresse https://github.com/LCO-Embedding/LCO-Embedding.
English
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
PDF944October 15, 2025