ChatPaper.aiChatPaper

Scalabilità dell'Apprendimento di Rappresentazioni Omnimodali Centrate sul Linguaggio

Scaling Language-Centric Omnimodal Representation Learning

October 13, 2025
Autori: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong
cs.AI

Abstract

I recenti approcci di embedding multimodale che sfruttano modelli linguistici multimodali di grandi dimensioni (MLLM) ottimizzati con apprendimento contrastivo (CL) hanno mostrato risultati promettenti, ma le ragioni alla base della loro superiorità rimangono poco esplorate. Questo lavoro sostiene che un vantaggio cruciale degli approcci basati su MLLM deriva dall'allineamento cross-modale implicito ottenuto durante il preaddestramento generativo, in cui il decodificatore linguistico impara a sfruttare segnali multimodali all'interno di uno spazio di rappresentazione condiviso per generare output unimodali. Attraverso l'analisi dell'anisotropia e della struttura di similarità del kernel, confermiamo empiricamente che un allineamento latente emerge nelle rappresentazioni degli MLLM, consentendo al CL di fungere da fase di raffinamento leggera. Sfruttando questa intuizione, proponiamo un framework di embedding omnimodale centrato sul linguaggio, denominato LCO-Emb. Esperimenti estesi su diversi backbone e benchmark ne dimostrano l'efficacia, raggiungendo prestazioni all'avanguardia in tutte le modalità. Inoltre, identifichiamo una Legge di Scalabilità Generazione-Rappresentazione (GRSL), che mostra come le capacità rappresentative acquisite attraverso il raffinamento contrastivo scalino positivamente con le capacità generative dell'MLLM. Ciò suggerisce che il miglioramento delle abilità generative si evolve come un paradigma efficace per migliorare la qualità della rappresentazione. Forniamo una spiegazione teorica della GRSL, che collega formalmente la qualità generativa dell'MLLM al limite superiore delle sue prestazioni rappresentative, e la validiamo su un compito impegnativo di recupero visivo-documentale con risorse limitate, dimostrando che un preaddestramento generativo continuo prima del CL può ulteriormente potenziare le capacità di embedding del modello. Codici, modelli e risorse sono disponibili all'indirizzo https://github.com/LCO-Embedding/LCO-Embedding.
English
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
PDF944October 15, 2025