ChatPaper.aiChatPaper

推論モデルは埋め込みモデルを強化するか?

Do Reasoning Models Enhance Embedding Models?

January 29, 2026
著者: Wun Yu Chan, Shaojin Chen, Huihao Jing, Kwun Hang Lau, Elton Chun-Chai Li, Zihao Wang, Haoran Li, Yangqiu Song
cs.AI

要旨

最先端の埋め込みモデルは、対照学習によって適応されたデコーダのみの大規模言語モデル(LLM)バックボーンから派生するケースが増えています。検証可能な報酬を用いた強化学習(RLVR)で訓練された推論モデルの登場を受けて、自然に湧き上がる疑問は、これらのモデルを埋め込み初期化として用いた場合、強化された推論能力は優れた意味表現に変換されるのか、ということです。予想に反し、MTEBとBRIGHTでの評価結果は**効果なし**という結論を示しています:RLVRで調整されたバックボーンから初期化された埋め込みモデルは、同一の訓練レシピを適用した場合、そのベースモデルと比べて一貫した性能優位性をもたらしません。このパラドックスを解明するため、我々は**H**ierarchical **R**epresentation **S**imilarity **A**nalysis(HRSA)を提案します。これは表現、幾何学、機能の各レベルで類似性を分解するフレームワークです。HRSAが明らかにしたところによれば、RLVRは潜在多様体の局所幾何学構造に不可逆的な再編成と可逆的な座標基底のドリフトを引き起こすものの、大域的な多様体の幾何学構造と線形読み出し機能は保存されます。その結果、後続の対照学習により、ベースモデルと推論初期化モデルとの間で強力な調整が促進され、我々が**多様体再調整**と呼ぶ現象が生じます。実証的には、教師ありファインチューニング(SFT)とは異なり、RLVRは意味的景観そのものを根本的に再構築するのではなく、既存の景観内で軌道を最適化することを示唆しています。
English
State-of-the-art embedding models are increasingly derived from decoder-only Large Language Model (LLM) backbones adapted via contrastive learning. Given the emergence of reasoning models trained via Reinforcement Learning with Verifiable Rewards (RLVR), a natural question arises: do enhanced reasoning translate to superior semantic representations when these models serve as embedding initializations? Contrary to expectation, our evaluation on MTEB and BRIGHT reveals a **null effect**: embedding models initialized from RLVR-tuned backbones yield no consistent performance advantage over their base counterparts when subjected to identical training recipes. To unpack this paradox, we introduce **H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA), a framework that decomposes similarity across representation, geometry, and function levels. HRSA reveals that while RLVR induces irreversible latent manifold's local geometry reorganization and reversible coordinate basis drift, it preserves the global manifold geometry and linear readout. Consequently, subsequent contrastive learning drives strong alignment between base- and reasoning-initialized models, a phenomenon we term **Manifold Realignment**. Empirically, our findings suggest that unlike Supervised Fine-Tuning (SFT), RLVR optimizes trajectories within an existing semantic landscape rather than fundamentally restructuring the landscape itself.
PDF222February 3, 2026