ChatPaper.aiChatPaper

Schalen van taalgerichte omnimodale representatieleer

Scaling Language-Centric Omnimodal Representation Learning

October 13, 2025
Auteurs: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong
cs.AI

Samenvatting

Recente multimodale embeddingbenaderingen die gebruikmaken van multimodale grote taalmodellen (MLLMs) die zijn verfijnd met contrastief leren (CL), hebben veelbelovende resultaten laten zien, maar de onderliggende redenen voor hun superioriteit blijven onderbelicht. Dit werk betoogt dat een cruciaal voordeel van MLLM-gebaseerde benaderingen voortkomt uit impliciete cross-modale alignering die wordt bereikt tijdens generatieve voorafgaande training, waarbij de taaldecoder leert om multimodale signalen binnen een gedeelde representatieruimte te benutten voor het genereren van unimodale uitvoer. Door analyse van anisotropie en kernel-gelijkvormigheidsstructuur bevestigen we empirisch dat latente alignering ontstaat binnen MLLM-representaties, waardoor CL kan dienen als een lichtgewicht verfijningsfase. Gebruikmakend van dit inzicht, stellen we een Language-Centric Omnimodal Embedding-framework voor, genaamd LCO-Emb. Uitgebreide experimenten over diverse backbones en benchmarks demonstreren de effectiviteit ervan, waarbij state-of-the-art prestaties worden behaald over verschillende modaliteiten. Verder identificeren we een Generation-Representation Scaling Law (GRSL), die aantoont dat de representatieve capaciteiten die worden verkregen door contrastieve verfijning positief schalen met de generatieve capaciteiten van de MLLM. Dit suggereert dat het verbeteren van generatieve vaardigheden zich ontwikkelt als een effectief paradigma voor het verbeteren van de representatiekwaliteit. We bieden een theoretische verklaring van GRSL, die formeel de generatieve kwaliteit van de MLLM koppelt aan de bovengrens van de representatieprestaties, en valideren deze op een uitdagende, laag-resource visueel-documentretrievetaak, waarbij wordt aangetoond dat voortdurende generatieve voorafgaande training vóór CL het potentieel van de embeddingcapaciteiten van een model verder kan verbeteren. Codes, modellen en bronnen zijn beschikbaar op https://github.com/LCO-Embedding/LCO-Embedding.
English
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
PDF944October 15, 2025