Scalabilità dell'Apprendimento di Rappresentazioni Omnimodali Centrate sul Linguaggio
Scaling Language-Centric Omnimodal Representation Learning
October 13, 2025
Autori: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong
cs.AI
Abstract
I recenti approcci di embedding multimodale che sfruttano modelli linguistici multimodali di grandi dimensioni (MLLM) ottimizzati con apprendimento contrastivo (CL) hanno mostrato risultati promettenti, ma le ragioni alla base della loro superiorità rimangono poco esplorate. Questo lavoro sostiene che un vantaggio cruciale degli approcci basati su MLLM deriva dall'allineamento cross-modale implicito ottenuto durante il preaddestramento generativo, in cui il decodificatore linguistico impara a sfruttare segnali multimodali all'interno di uno spazio di rappresentazione condiviso per generare output unimodali. Attraverso l'analisi dell'anisotropia e della struttura di similarità del kernel, confermiamo empiricamente che un allineamento latente emerge nelle rappresentazioni degli MLLM, consentendo al CL di fungere da fase di raffinamento leggera. Sfruttando questa intuizione, proponiamo un framework di embedding omnimodale centrato sul linguaggio, denominato LCO-Emb. Esperimenti estesi su diversi backbone e benchmark ne dimostrano l'efficacia, raggiungendo prestazioni all'avanguardia in tutte le modalità. Inoltre, identifichiamo una Legge di Scalabilità Generazione-Rappresentazione (GRSL), che mostra come le capacità rappresentative acquisite attraverso il raffinamento contrastivo scalino positivamente con le capacità generative dell'MLLM. Ciò suggerisce che il miglioramento delle abilità generative si evolve come un paradigma efficace per migliorare la qualità della rappresentazione. Forniamo una spiegazione teorica della GRSL, che collega formalmente la qualità generativa dell'MLLM al limite superiore delle sue prestazioni rappresentative, e la validiamo su un compito impegnativo di recupero visivo-documentale con risorse limitate, dimostrando che un preaddestramento generativo continuo prima del CL può ulteriormente potenziare le capacità di embedding del modello. Codici, modelli e risorse sono disponibili all'indirizzo https://github.com/LCO-Embedding/LCO-Embedding.
English
Recent multimodal embedding approaches leveraging multimodal large language
models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising
results, yet the underlying reasons behind their superiority remain
underexplored. This work argues that a crucial advantage of MLLM-based
approaches stems from implicit cross-modal alignment achieved during generative
pretraining, where the language decoder learns to exploit multimodal signals
within a shared representation space for generating unimodal outputs. Through
analysis of anisotropy and kernel similarity structure, we empirically confirm
that latent alignment emerges within MLLM representations, allowing CL to serve
as a lightweight refinement stage. Leveraging this insight, we propose a
Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive
experiments across diverse backbones and benchmarks demonstrate its
effectiveness, achieving state-of-the-art performance across modalities.
Furthermore, we identify a Generation-Representation Scaling Law (GRSL),
showing that the representational capabilities gained through contrastive
refinement scales positively with the MLLM's generative capabilities. This
suggests that improving generative abilities evolves as an effective paradigm
for enhancing representation quality. We provide a theoretical explanation of
GRSL, which formally links the MLLM's generative quality to the upper bound on
its representation performance, and validate it on a challenging, low-resource
visual-document retrieval task, showing that continual generative pretraining
before CL can further enhance the potential of a model's embedding
capabilities. Codes, models, and resources are available at
https://github.com/LCO-Embedding/LCO-Embedding.