I Modelli di Ragionamento Migliorano i Modelli di Embedding?

Abstract

I modelli di embedding all'avanguardia sono sempre più derivati da architetture LLM (Large Language Model) di tipo decoder-only adattate mediante apprendimento contrastivo. Data l'emergere di modelli di ragionamento addestrati tramite Reinforcement Learning con Ricompense Verificabili (RLVR), sorge spontanea una domanda: le capacità di ragionamento potenziate si traducono in rappresentazioni semantiche superiori quando questi modelli fungono da inizializzazioni per gli embedding? Contrariamente alle aspettative, la nostra valutazione su MTEB e BRIGHT rivela un **effetto nullo**: i modelli di embedding inizializzati da architetture sintonizzate con RLVR non mostrano alcun vantaggio prestazionale consistente rispetto alle loro controparti base quando sottoposti alle stesse procedure di addestramento. Per analizzare questo paradosso, introduciamo l'**A**nalisi della **S**imiglianza **R**appresentazionale **I**erarchica (HRSA), un framework che scompone la similitudine a livello rappresentazionale, geometrico e funzionale. L'HRSA rivela che mentre RLVR induce una riorganizzazione locale irreversibile della geometria del manifold latente e una deriva reversibile della base delle coordinate, esso preserva la geometria globale del manifold e la lettura lineare. Di conseguenza, il successivo apprendimento contrastivo guida un forte allineamento tra i modelli inizializzati dalla base e quelli ottimizzati per il ragionamento, un fenomeno che definiamo **Riallineamento del Manifold**. Empiricamente, i nostri risultati suggeriscono che, a differenza del Supervised Fine-Tuning (SFT), RLVR ottimizza le traiettorie all'interno di un panorama semantico esistente piuttosto che ristrutturarne fondamentalmente il panorama stesso.

English

State-of-the-art embedding models are increasingly derived from decoder-only Large Language Model (LLM) backbones adapted via contrastive learning. Given the emergence of reasoning models trained via Reinforcement Learning with Verifiable Rewards (RLVR), a natural question arises: do enhanced reasoning translate to superior semantic representations when these models serve as embedding initializations? Contrary to expectation, our evaluation on MTEB and BRIGHT reveals a **null effect**: embedding models initialized from RLVR-tuned backbones yield no consistent performance advantage over their base counterparts when subjected to identical training recipes. To unpack this paradox, we introduce **H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA), a framework that decomposes similarity across representation, geometry, and function levels. HRSA reveals that while RLVR induces irreversible latent manifold's local geometry reorganization and reversible coordinate basis drift, it preserves the global manifold geometry and linear readout. Consequently, subsequent contrastive learning drives strong alignment between base- and reasoning-initialized models, a phenomenon we term **Manifold Realignment**. Empirically, our findings suggest that unlike Supervised Fine-Tuning (SFT), RLVR optimizes trajectories within an existing semantic landscape rather than fundamentally restructuring the landscape itself.

I Modelli di Ragionamento Migliorano i Modelli di Embedding?

Do Reasoning Models Enhance Embedding Models?

Abstract

Support