ChatPaper.aiChatPaper

Verbeteren redeneermodellen inbeddingsmodellen?

Do Reasoning Models Enhance Embedding Models?

January 29, 2026
Auteurs: Wun Yu Chan, Shaojin Chen, Huihao Jing, Kwun Hang Lau, Elton Chun-Chai Li, Zihao Wang, Haoran Li, Yangqiu Song
cs.AI

Samenvatting

State-of-the-art embeddingmodellen worden steeds vaker afgeleid van decoder-only Large Language Model (LLM)-backbones die zijn aangepast via contrastief leren. Gezien de opkomst van redeneermodellen die zijn getraind via Reinforcement Learning with Verifiable Rewards (RLVR), rijst een voor de hand liggende vraag: vertaalt verbeterd redeneervermogen zich naar superieure semantische representaties wanneer deze modellen worden gebruikt als initialisatie voor embeddings? In tegenstelling tot de verwachting laat onze evaluatie op MTEB en BRIGHT een **nuleffect** zien: embeddingmodellen geïnitialiseerd vanuit RLVR-afgestemde backbones vertonen geen consistente prestatieverbetering ten opzichte van hun basis-tegenhangers wanneer identieke trainingstrajecten worden toegepast. Om deze paradox te ontleden, introduceren we **H**iërarchische **R**epresentatie-**S**imilariteits-**A**nalyse (HRSA), een raamwerk dat similariteit decomposeert op representatie-, geometrie- en functieniveau. HRSA toont aan dat hoewel RLVR een onomkeerbare reorganisatie van de lokale geometrie van de latente variëteit en een omkeerbare coördinaatbasisverschuiving induceert, het de globale variëteitsgeometrie en lineaire uitleesbaarheid behoudt. Als gevolg hiervan zorgt het daaropvolgende contrastieve leren voor een sterke uitlijning tussen de op basis- en redeneermodellen geïnitialiseerde modellen, een fenomeen dat wij **Variëteitsheruitlijning** noemen. Empirisch suggereren onze bevindingen dat, in tegenstelling tot Supervised Fine-Tuning (SFT), RLVR trajecten optimaliseert binnen een bestaand semantisch landschap in plaats van het landschap zelf fundamenteel te herstructureren.
English
State-of-the-art embedding models are increasingly derived from decoder-only Large Language Model (LLM) backbones adapted via contrastive learning. Given the emergence of reasoning models trained via Reinforcement Learning with Verifiable Rewards (RLVR), a natural question arises: do enhanced reasoning translate to superior semantic representations when these models serve as embedding initializations? Contrary to expectation, our evaluation on MTEB and BRIGHT reveals a **null effect**: embedding models initialized from RLVR-tuned backbones yield no consistent performance advantage over their base counterparts when subjected to identical training recipes. To unpack this paradox, we introduce **H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA), a framework that decomposes similarity across representation, geometry, and function levels. HRSA reveals that while RLVR induces irreversible latent manifold's local geometry reorganization and reversible coordinate basis drift, it preserves the global manifold geometry and linear readout. Consequently, subsequent contrastive learning drives strong alignment between base- and reasoning-initialized models, a phenomenon we term **Manifold Realignment**. Empirically, our findings suggest that unlike Supervised Fine-Tuning (SFT), RLVR optimizes trajectories within an existing semantic landscape rather than fundamentally restructuring the landscape itself.
PDF252February 27, 2026