Улучшают ли модели логического вывода модели эмбеддингов?
Do Reasoning Models Enhance Embedding Models?
January 29, 2026
Авторы: Wun Yu Chan, Shaojin Chen, Huihao Jing, Kwun Hang Lau, Elton Chun-Chai Li, Zihao Wang, Haoran Li, Yangqiu Song
cs.AI
Аннотация
Современные модели эмбиддингов всё чаще создаются на основе декодерных больших языковых моделей (LLM), адаптированных с помощью контрастивного обучения. С появлением моделей рассуждений, обученных посредством обучения с подкреплением и верифицируемыми вознаграждениями (RLVR), возникает естественный вопрос: приводит ли улучшение способности к рассуждениям к превосходным семантическим репрезентациям, когда эти модели используются в качестве инициализации для эмбиддингов? Вопреки ожиданиям, наша оценка на наборах данных MTEB и BRIGHT выявляет **нулевой эффект**: модели эмбиддингов, инициализированные на основе RLVR-дообученных моделей, не демонстрируют устойчивого преимущества в производительности по сравнению со своими базовыми аналогами при идентичных рецептах обучения.
Для анализа этого парадокса мы представляем **И**ерархический **А**нализ **С**ходства **Р**епрезентаций (HRSA) — фреймворк, который декомпозирует сходство на уровне репрезентаций, геометрии и функций. HRSA показывает, что хотя RLVR вызывает необратимую реорганизацию локальной геометрии латентного многообразия и обратимый дрейф координатного базиса, он сохраняет глобальную геометрию многообразия и линейное считывание. Как следствие, последующее контрастивное обучение приводит к сильному выравниванию между моделями, инициализированными от базовой и RLVR-модели, — феномен, который мы называем **Реалигнингом Многообразия**.
Эмпирически наши результаты позволяют предположить, что в отличие от контролируемого дообучения (SFT), RLVR оптимизирует траектории внутри существующего семантического ландшафта, а не фундаментально перестраивает сам ландшафт.
English
State-of-the-art embedding models are increasingly derived from decoder-only Large Language Model (LLM) backbones adapted via contrastive learning. Given the emergence of reasoning models trained via Reinforcement Learning with Verifiable Rewards (RLVR), a natural question arises: do enhanced reasoning translate to superior semantic representations when these models serve as embedding initializations? Contrary to expectation, our evaluation on MTEB and BRIGHT reveals a **null effect**: embedding models initialized from RLVR-tuned backbones yield no consistent performance advantage over their base counterparts when subjected to identical training recipes. To unpack this paradox, we introduce **H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA), a framework that decomposes similarity across representation, geometry, and function levels. HRSA reveals that while RLVR induces irreversible latent manifold's local geometry reorganization and reversible coordinate basis drift, it preserves the global manifold geometry and linear readout. Consequently, subsequent contrastive learning drives strong alignment between base- and reasoning-initialized models, a phenomenon we term **Manifold Realignment**. Empirically, our findings suggest that unlike Supervised Fine-Tuning (SFT), RLVR optimizes trajectories within an existing semantic landscape rather than fundamentally restructuring the landscape itself.