ChatPaper.aiChatPaper

Les modèles de raisonnement améliorent-ils les modèles d'embedding ?

Do Reasoning Models Enhance Embedding Models?

January 29, 2026
papers.authors: Wun Yu Chan, Shaojin Chen, Huihao Jing, Kwun Hang Lau, Elton Chun-Chai Li, Zihao Wang, Haoran Li, Yangqiu Song
cs.AI

papers.abstract

Les modèles d'embedding de pointe sont de plus en plus dérivés d'architectures de grands modèles de langage (LLM) décodeurs-seuls, adaptés via un apprentissage par contraste. Compte tenu de l'émergence de modèles de raisonnement entraînés par apprentissage par renforcement avec récompenses vérifiables (RLVR), une question naturelle se pose : les capacités de raisonnement accrues se traduisent-elles par des représentations sémantiques supérieures lorsque ces modèles servent d'initialisation pour les embeddings ? Contrairement aux attentes, notre évaluation sur MTEB et BRIGHT révèle un **effet nul** : les modèles d'embedding initialisés à partir de modèles de base ajustés par RLVR ne présentent aucun avantage de performance cohérent par rapport à leurs contreparties de base lorsqu'ils sont soumis à des protocoles d'entraînement identiques. Pour résoudre ce paradoxe, nous introduisons l'**A**nalyse de **S**imilarité des **R**eprésentations **H**iérarchique (HRSA), un cadre qui décompose la similarité aux niveaux de la représentation, de la géométrie et de la fonction. L'HRSA révèle que si le RLVR induit une réorganisation locale irréversible de la géométrie de la variété latente ainsi qu'une dérive réversible de la base des coordonnées, il préserve la géométrie globale de la variété et sa lisibilité linéaire. Par conséquent, l'apprentissage par contraste ultérieur conduit à un fort alignement entre les modèles initialisés à partir des bases standard et ceux issus du raisonnement, un phénomène que nous nommons **Realignement de la Variété**. Empiriquement, nos résultats suggèrent que, contrairement au réglage fin supervisé (SFT), le RLVR optimise les trajectoires au sein d'un paysage sémantique existant plutôt que de restructurer fondamentalement le paysage lui-même.
English
State-of-the-art embedding models are increasingly derived from decoder-only Large Language Model (LLM) backbones adapted via contrastive learning. Given the emergence of reasoning models trained via Reinforcement Learning with Verifiable Rewards (RLVR), a natural question arises: do enhanced reasoning translate to superior semantic representations when these models serve as embedding initializations? Contrary to expectation, our evaluation on MTEB and BRIGHT reveals a **null effect**: embedding models initialized from RLVR-tuned backbones yield no consistent performance advantage over their base counterparts when subjected to identical training recipes. To unpack this paradox, we introduce **H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA), a framework that decomposes similarity across representation, geometry, and function levels. HRSA reveals that while RLVR induces irreversible latent manifold's local geometry reorganization and reversible coordinate basis drift, it preserves the global manifold geometry and linear readout. Consequently, subsequent contrastive learning drives strong alignment between base- and reasoning-initialized models, a phenomenon we term **Manifold Realignment**. Empirically, our findings suggest that unlike Supervised Fine-Tuning (SFT), RLVR optimizes trajectories within an existing semantic landscape rather than fundamentally restructuring the landscape itself.
PDF222February 3, 2026