추론 모델이 임베딩 모델의 성능을 향상시키는가?
Do Reasoning Models Enhance Embedding Models?
January 29, 2026
저자: Wun Yu Chan, Shaojin Chen, Huihao Jing, Kwun Hang Lau, Elton Chun-Chai Li, Zihao Wang, Haoran Li, Yangqiu Song
cs.AI
초록
최첨단 임베딩 모델은 대조 학습을 통해 적응된 디코더 전용 대규모 언어 모델(LLM) 백본에서 점점 더 파생되고 있다. 검증 가능한 보상 강화 학습(RLVR)으로 훈련된 추론 모델의 등장에 따라, 이러한 모델이 임베딩 초기화로 사용될 때 향상된 추론 능력이 우수한 의미 표현으로 이어지는지에 대한 자연스러운 질문이 제기된다. 예상과는 달리, MTEB와 BRIGHT에 대한 우리의 평가는 **영효과(null effect)** 를 보여준다: RLVR로 조정된 백본에서 초기화된 임베딩 모델은 동일한 훈련 방법을 적용했을 때 기본 대조군 모델 대비 일관된 성능 우위를 제공하지 않는다. 이 역설을 해체하기 위해 우리는 표현, 기하학, 기능 수준 간 유사성을 분해하는 프레임워크인 **H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA)를 도입한다. HRSA 분석 결과, RLVR이 비가역적인 잠재 매니폴드의 국소 기하학 재구성과 가역적인 좌표계 기저 이동을 유도하는 반면, 전역 매니폴드 기하학과 선형 판독은 보존된다는 것을 확인했다. 결과적으로, 후속 대조 학습은 기본 모델과 추론 초기화 모델 간의 강력한 정렬을 유도하며, 우리는 이 현상을 **매니폴드 재정렬(Manifold Realignment)** 이라고 명명한다. 실증적으로, 우리의 연구 결과는 지도 미세 조정(SFT)과 달리 RLVR이 의미 공간 자체를 근본적으로 재구성하기보다는 기존 의미 공간 내에서 궤적을 최적화함을 시사한다.
English
State-of-the-art embedding models are increasingly derived from decoder-only Large Language Model (LLM) backbones adapted via contrastive learning. Given the emergence of reasoning models trained via Reinforcement Learning with Verifiable Rewards (RLVR), a natural question arises: do enhanced reasoning translate to superior semantic representations when these models serve as embedding initializations? Contrary to expectation, our evaluation on MTEB and BRIGHT reveals a **null effect**: embedding models initialized from RLVR-tuned backbones yield no consistent performance advantage over their base counterparts when subjected to identical training recipes. To unpack this paradox, we introduce **H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA), a framework that decomposes similarity across representation, geometry, and function levels. HRSA reveals that while RLVR induces irreversible latent manifold's local geometry reorganization and reversible coordinate basis drift, it preserves the global manifold geometry and linear readout. Consequently, subsequent contrastive learning drives strong alignment between base- and reasoning-initialized models, a phenomenon we term **Manifold Realignment**. Empirically, our findings suggest that unlike Supervised Fine-Tuning (SFT), RLVR optimizes trajectories within an existing semantic landscape rather than fundamentally restructuring the landscape itself.