ChatPaper.aiChatPaper

Os Modelos de Raciocínio Aprimoram os Modelos de Incorporação?

Do Reasoning Models Enhance Embedding Models?

January 29, 2026
Autores: Wun Yu Chan, Shaojin Chen, Huihao Jing, Kwun Hang Lau, Elton Chun-Chai Li, Zihao Wang, Haoran Li, Yangqiu Song
cs.AI

Resumo

Os modelos de embedding de última geração são cada vez mais derivados de arquiteturas base de Large Language Models (LLM) somente-decodificador, adaptadas via aprendizagem contrastiva. Dada a emergência de modelos de raciocínio treinados por meio de Reinforcement Learning with Verifiable Rewards (RLVR), uma questão natural surge: será que capacidades de raciocínio aprimoradas se traduzem em representações semânticas superiores quando esses modelos servem como inicialização para embeddings? Contrariamente à expectativa, nossa avaliação no MTEB e no BRIGHT revela um **efeito nulo**: modelos de embedding inicializados a partir de bases ajustadas por RLVR não apresentam vantagem de desempenho consistente sobre suas contrapartes base quando submetidos às mesmas receitas de treinamento. Para desvendar este paradoxo, introduzimos a **A**nálise de **S**emelhança de **R**epresentação **H**ierárquica (HRSA), uma estrutura que decompõe a similaridade nos níveis de representação, geometria e função. A HRSA revela que, embora o RLVR induza uma reorganização irreversível da geometria local da variedade latente e um desvio reversível da base de coordenadas, ele preserva a geometria global da variedade e a leitura linear. Consequentemente, a subsequente aprendizagem contrastiva promove um forte alinhamento entre os modelos inicializados a partir da base e dos modelos de raciocínio, um fenômeno que denominamos **Realinhamento da Variedade**. Empiricamente, nossas descobertas sugerem que, ao contrário do Ajuste Fino Supervisionado (SFT), o RLVR otimiza trajetórias dentro de uma paisagem semântica existente, em vez de reestruturar fundamentalmente a própria paisagem.
English
State-of-the-art embedding models are increasingly derived from decoder-only Large Language Model (LLM) backbones adapted via contrastive learning. Given the emergence of reasoning models trained via Reinforcement Learning with Verifiable Rewards (RLVR), a natural question arises: do enhanced reasoning translate to superior semantic representations when these models serve as embedding initializations? Contrary to expectation, our evaluation on MTEB and BRIGHT reveals a **null effect**: embedding models initialized from RLVR-tuned backbones yield no consistent performance advantage over their base counterparts when subjected to identical training recipes. To unpack this paradox, we introduce **H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA), a framework that decomposes similarity across representation, geometry, and function levels. HRSA reveals that while RLVR induces irreversible latent manifold's local geometry reorganization and reversible coordinate basis drift, it preserves the global manifold geometry and linear readout. Consequently, subsequent contrastive learning drives strong alignment between base- and reasoning-initialized models, a phenomenon we term **Manifold Realignment**. Empirically, our findings suggest that unlike Supervised Fine-Tuning (SFT), RLVR optimizes trajectories within an existing semantic landscape rather than fundamentally restructuring the landscape itself.
PDF252February 27, 2026