Skalierung sprachzentrierter omnimodaler Repräsentationslernverfahren
Scaling Language-Centric Omnimodal Representation Learning
October 13, 2025
papers.authors: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong
cs.AI
papers.abstract
Aktuelle multimodale Embedding-Ansätze, die multimodale große Sprachmodelle (MLLMs) nutzen, die mit kontrastivem Lernen (CL) feinabgestimmt wurden, haben vielversprechende Ergebnisse gezeigt. Dennoch bleiben die zugrunde liegenden Gründe für ihre Überlegenheit weitgehend unerforscht. Diese Arbeit argumentiert, dass ein entscheidender Vorteil von MLLM-basierten Ansätzen aus der impliziten cross-modalen Ausrichtung resultiert, die während des generativen Vorabtrainings erreicht wird, wobei der Sprachdekodierer lernt, multimodale Signale innerhalb eines gemeinsamen Repräsentationsraums zur Erzeugung unimodaler Ausgaben zu nutzen. Durch die Analyse von Anisotropie und Kernel-Ähnlichkeitsstruktur bestätigen wir empirisch, dass eine latente Ausrichtung innerhalb der MLLM-Repräsentationen entsteht, was CL als leichtgewichtige Verfeinerungsstufe ermöglicht. Basierend auf dieser Erkenntnis schlagen wir ein sprachzentriertes omnimodales Embedding-Framework vor, das als LCO-Emb bezeichnet wird. Umfangreiche Experimente über verschiedene Backbones und Benchmarks hinweg demonstrieren seine Effektivität und erzielen state-of-the-art Leistungen über verschiedene Modalitäten hinweg. Darüber hinaus identifizieren wir ein Generation-Repräsentation-Skalierungsgesetz (GRSL), das zeigt, dass die durch kontrastive Verfeinerung gewonnenen Repräsentationsfähigkeiten positiv mit den generativen Fähigkeiten des MLLM skalieren. Dies deutet darauf hin, dass die Verbesserung der generativen Fähigkeiten ein effektives Paradigma zur Steigerung der Repräsentationsqualität darstellt. Wir liefern eine theoretische Erklärung des GRSL, die die generative Qualität des MLLM formal mit der oberen Grenze seiner Repräsentationsleistung verknüpft, und validieren dies anhand einer anspruchsvollen, ressourcenarmen visuell-dokumentbasierten Retrieval-Aufgabe. Dabei zeigen wir, dass kontinuierliches generatives Vorabtraining vor CL das Potenzial der Embedding-Fähigkeiten eines Modells weiter steigern kann. Codes, Modelle und Ressourcen sind unter https://github.com/LCO-Embedding/LCO-Embedding verfügbar.
English
Recent multimodal embedding approaches leveraging multimodal large language
models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising
results, yet the underlying reasons behind their superiority remain
underexplored. This work argues that a crucial advantage of MLLM-based
approaches stems from implicit cross-modal alignment achieved during generative
pretraining, where the language decoder learns to exploit multimodal signals
within a shared representation space for generating unimodal outputs. Through
analysis of anisotropy and kernel similarity structure, we empirically confirm
that latent alignment emerges within MLLM representations, allowing CL to serve
as a lightweight refinement stage. Leveraging this insight, we propose a
Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive
experiments across diverse backbones and benchmarks demonstrate its
effectiveness, achieving state-of-the-art performance across modalities.
Furthermore, we identify a Generation-Representation Scaling Law (GRSL),
showing that the representational capabilities gained through contrastive
refinement scales positively with the MLLM's generative capabilities. This
suggests that improving generative abilities evolves as an effective paradigm
for enhancing representation quality. We provide a theoretical explanation of
GRSL, which formally links the MLLM's generative quality to the upper bound on
its representation performance, and validate it on a challenging, low-resource
visual-document retrieval task, showing that continual generative pretraining
before CL can further enhance the potential of a model's embedding
capabilities. Codes, models, and resources are available at
https://github.com/LCO-Embedding/LCO-Embedding.