ChatPaper.aiChatPaper

Skalierung sprachzentrierter omnimodaler Repräsentationslernverfahren

Scaling Language-Centric Omnimodal Representation Learning

October 13, 2025
papers.authors: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong
cs.AI

papers.abstract

Aktuelle multimodale Embedding-Ansätze, die multimodale große Sprachmodelle (MLLMs) nutzen, die mit kontrastivem Lernen (CL) feinabgestimmt wurden, haben vielversprechende Ergebnisse gezeigt. Dennoch bleiben die zugrunde liegenden Gründe für ihre Überlegenheit weitgehend unerforscht. Diese Arbeit argumentiert, dass ein entscheidender Vorteil von MLLM-basierten Ansätzen aus der impliziten cross-modalen Ausrichtung resultiert, die während des generativen Vorabtrainings erreicht wird, wobei der Sprachdekodierer lernt, multimodale Signale innerhalb eines gemeinsamen Repräsentationsraums zur Erzeugung unimodaler Ausgaben zu nutzen. Durch die Analyse von Anisotropie und Kernel-Ähnlichkeitsstruktur bestätigen wir empirisch, dass eine latente Ausrichtung innerhalb der MLLM-Repräsentationen entsteht, was CL als leichtgewichtige Verfeinerungsstufe ermöglicht. Basierend auf dieser Erkenntnis schlagen wir ein sprachzentriertes omnimodales Embedding-Framework vor, das als LCO-Emb bezeichnet wird. Umfangreiche Experimente über verschiedene Backbones und Benchmarks hinweg demonstrieren seine Effektivität und erzielen state-of-the-art Leistungen über verschiedene Modalitäten hinweg. Darüber hinaus identifizieren wir ein Generation-Repräsentation-Skalierungsgesetz (GRSL), das zeigt, dass die durch kontrastive Verfeinerung gewonnenen Repräsentationsfähigkeiten positiv mit den generativen Fähigkeiten des MLLM skalieren. Dies deutet darauf hin, dass die Verbesserung der generativen Fähigkeiten ein effektives Paradigma zur Steigerung der Repräsentationsqualität darstellt. Wir liefern eine theoretische Erklärung des GRSL, die die generative Qualität des MLLM formal mit der oberen Grenze seiner Repräsentationsleistung verknüpft, und validieren dies anhand einer anspruchsvollen, ressourcenarmen visuell-dokumentbasierten Retrieval-Aufgabe. Dabei zeigen wir, dass kontinuierliches generatives Vorabtraining vor CL das Potenzial der Embedding-Fähigkeiten eines Modells weiter steigern kann. Codes, Modelle und Ressourcen sind unter https://github.com/LCO-Embedding/LCO-Embedding verfügbar.
English
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
PDF944October 15, 2025