ChatPaper.aiChatPaper

言語中心のオムニモーダル表現学習のスケーリング

Scaling Language-Centric Omnimodal Representation Learning

October 13, 2025
著者: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong
cs.AI

要旨

最近のマルチモーダル埋め込みアプローチでは、コントラスティブ学習(CL)でファインチューンされたマルチモーダル大規模言語モデル(MLLM)を活用することで有望な結果が示されているが、その優位性の根本的な理由はまだ十分に解明されていない。本研究では、MLLMベースのアプローチの重要な利点は、生成的な事前学習中に達成される暗黙的なクロスモーダルアラインメントに起因すると主張する。ここでは、言語デコーダが共有表現空間内のマルチモーダル信号を活用してユニモーダル出力を生成することを学習する。異方性とカーネル類似性構造の分析を通じて、MLLM表現内に潜在的なアラインメントが生じ、CLが軽量な改良段階として機能することを実証的に確認した。この洞察を活かし、Language-Centric Omnimodal Embeddingフレームワーク(LCO-Emb)を提案する。多様なバックボーンとベンチマークでの広範な実験により、その有効性が実証され、モダリティを超えた最先端の性能を達成した。さらに、生成-表現スケーリング則(GRSL)を特定し、コントラスティブ改良を通じて得られる表現能力がMLLMの生成能力と正の相関を持つことを示した。これは、生成能力の向上が表現品質を高めるための効果的なパラダイムとして進化することを示唆している。GRSLの理論的説明を提供し、MLLMの生成品質とその表現性能の上限を形式的に結びつけ、低リソースの視覚-文書検索タスクで検証した。その結果、CLの前に継続的な生成的な事前学習を行うことで、モデルの埋め込み能力の潜在能力をさらに高められることが示された。コード、モデル、リソースはhttps://github.com/LCO-Embedding/LCO-Embeddingで公開されている。
English
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
PDF944October 15, 2025