ChatPaper.aiChatPaper

Verbessern Reasoning-Modelle Embedding-Modelle?

Do Reasoning Models Enhance Embedding Models?

January 29, 2026
papers.authors: Wun Yu Chan, Shaojin Chen, Huihao Jing, Kwun Hang Lau, Elton Chun-Chai Li, Zihao Wang, Haoran Li, Yangqiu Song
cs.AI

papers.abstract

Aktuelle State-of-the-Art-Einbettungsmodelle werden zunehmend aus Decoder-only Large Language Model (LLM)-Architekturen abgeleitet, die mittels kontrastiven Lernens angepasst werden. Angesichts des Aufkommens von Reasoning-Modellen, die durch Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) trainiert werden, stellt sich eine naheliegende Frage: Übersetzt sich ein verbessertes Reasoning in überlegene semantische Repräsentationen, wenn diese Modelle als Initialisierungen für Einbettungen dienen? Entgegen der Erwartung zeigt unsere Auswertung auf MTEB und BRIGHT einen **Null-Effekt**: Einbettungsmodelle, die auf RLVR-optimierten Architekturen initialisiert wurden, erzielen keinen konsistenten Leistungsvorteil gegenüber ihren Basis-Pendants, wenn identische Trainingsrezepte angewendet werden. Um dieses Paradoxon aufzulösen, führen wir die **H**ierarchische **R**epräsentations-**Ä**hnlichkeits-**A**nalyse (HRSA) ein, ein Framework, das Ähnlichkeit über Repräsentations-, Geometrie- und Funktionsebenen hinweg zerlegt. HRSA zeigt, dass RLVR zwar eine irreversible Reorganisation der lokalen Geometrie des latenten Mannigfaltigkeit sowie einen reversiblen Koordinatenbasis-Drift induziert, jedoch die globale Mannigfaltigkeitsgeometrie und die lineare Auslesefunktion erhält. Infolgedessen erzwingt das nachfolgende kontrastive Lernen eine starke Angleichung zwischen basis- und reasoning-initialisierten Modellen – ein Phänomen, das wir als **Manifold Realignment** (Mannigfaltigkeits-Neujustierung) bezeichnen. Empirisch legen unsere Ergebnisse nahe, dass RLVR – im Gegensatz zum Supervised Fine-Tuning (SFT) – Trajektorien innerhalb einer bestehenden semantischen Landschaft optimiert, anstatt die Landschaft selbst grundlegend umzustrukturieren.
English
State-of-the-art embedding models are increasingly derived from decoder-only Large Language Model (LLM) backbones adapted via contrastive learning. Given the emergence of reasoning models trained via Reinforcement Learning with Verifiable Rewards (RLVR), a natural question arises: do enhanced reasoning translate to superior semantic representations when these models serve as embedding initializations? Contrary to expectation, our evaluation on MTEB and BRIGHT reveals a **null effect**: embedding models initialized from RLVR-tuned backbones yield no consistent performance advantage over their base counterparts when subjected to identical training recipes. To unpack this paradox, we introduce **H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA), a framework that decomposes similarity across representation, geometry, and function levels. HRSA reveals that while RLVR induces irreversible latent manifold's local geometry reorganization and reversible coordinate basis drift, it preserves the global manifold geometry and linear readout. Consequently, subsequent contrastive learning drives strong alignment between base- and reasoning-initialized models, a phenomenon we term **Manifold Realignment**. Empirically, our findings suggest that unlike Supervised Fine-Tuning (SFT), RLVR optimizes trajectories within an existing semantic landscape rather than fundamentally restructuring the landscape itself.
PDF222February 3, 2026