¿Mejoran los Modelos de Razonamiento a los Modelos de Incrustación?
Do Reasoning Models Enhance Embedding Models?
January 29, 2026
Autores: Wun Yu Chan, Shaojin Chen, Huihao Jing, Kwun Hang Lau, Elton Chun-Chai Li, Zihao Wang, Haoran Li, Yangqiu Song
cs.AI
Resumen
Los modelos de incrustación (embedding) de última generación se derivan cada vez más de arquitecturas de modelos de lenguaje grandes (LLM) de solo decodificador, adaptadas mediante aprendizaje contrastivo. Dada la aparición de modelos de razonamiento entrenados mediante Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), surge una pregunta natural: ¿se traducen las capacidades de razonamiento mejoradas en representaciones semánticas superiores cuando estos modelos se utilizan como inicializaciones para incrustaciones? Contrario a lo esperado, nuestra evaluación en MTEB y BRIGHT revela un **efecto nulo**: los modelos de incrustación inicializados a partir de arquitecturas ajustadas con RLVR no muestran una ventaja de rendimiento consistente sobre sus contrapartes base cuando se someten a recetas de entrenamiento idénticas. Para desentrañar esta paradoja, introducimos el **A**nálisis de **S**imilitud de **R**epresentación **J**erárquica (HRSA), un marco que descompone la similitud en los niveles de representación, geometría y función. El HRSA revela que, si bien RLVR induce una reorganización irreversible de la geometría local del múltiple latente y una deriva reversible de la base de coordenadas, preserva la geometría global del múltiple y su lectura lineal. En consecuencia, el aprendizaje contrastivo posterior impulsa una fuerte alineación entre los modelos inicializados desde la base y aquellos inicializados para el razonamiento, un fenómeno que denominamos **Realineamiento del Múltiple**. Empíricamente, nuestros hallazgos sugieren que, a diferencia del Ajuste Fino Supervisado (SFT), RLVR optimiza trayectorias dentro de un panorama semántico existente en lugar de reestructurar fundamentalmente el panorama mismo.
English
State-of-the-art embedding models are increasingly derived from decoder-only Large Language Model (LLM) backbones adapted via contrastive learning. Given the emergence of reasoning models trained via Reinforcement Learning with Verifiable Rewards (RLVR), a natural question arises: do enhanced reasoning translate to superior semantic representations when these models serve as embedding initializations? Contrary to expectation, our evaluation on MTEB and BRIGHT reveals a **null effect**: embedding models initialized from RLVR-tuned backbones yield no consistent performance advantage over their base counterparts when subjected to identical training recipes. To unpack this paradox, we introduce **H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA), a framework that decomposes similarity across representation, geometry, and function levels. HRSA reveals that while RLVR induces irreversible latent manifold's local geometry reorganization and reversible coordinate basis drift, it preserves the global manifold geometry and linear readout. Consequently, subsequent contrastive learning drives strong alignment between base- and reasoning-initialized models, a phenomenon we term **Manifold Realignment**. Empirically, our findings suggest that unlike Supervised Fine-Tuning (SFT), RLVR optimizes trajectories within an existing semantic landscape rather than fundamentally restructuring the landscape itself.