GRACE : Apprentissage de représentations génératives via l'optimisation de politiques contrastives

papers.abstract

Les méthodes prédominantes pour entraîner les modèles de langage de grande taille (LLM) en tant qu'encodeurs de texte reposent sur des pertes contrastives qui traitent le modèle comme une fonction boîte noire, abandonnant ses capacités génératives et de raisonnement au profit d'embeddings statiques. Nous présentons GRACE (Generative Representation Learning via Contrastive Policy Optimization), un cadre novateur qui réinvente les signaux contrastifs non pas comme des pertes à minimiser, mais comme des récompenses guidant une politique générative. Dans GRACE, le LLM agit comme une politique produisant des justifications explicites et interprétables par l'homme - des explications en langage naturel structurées de sa compréhension sémantique. Ces justifications sont ensuite encodées en embeddings de haute qualité via un pooling moyen. En utilisant l'optimisation par gradient de politique, nous entraînons le modèle avec une fonction de récompense multi-composantes qui maximise la similarité entre les paires positives de requêtes et minimise la similarité avec les négatives. Cela transforme le LLM d'un encodeur opaque en un agent interprétable dont le processus de raisonnement est transparent et inspectable. Sur le benchmark MTEB, GRACE apporte des gains transversaux : en moyenne sur quatre architectures, le cadre supervisé améliore le score global de 11,5 % par rapport aux modèles de base, et la variante non supervisée ajoute 6,9 %, tout en préservant les capacités générales. Ce travail traite les objectifs contrastifs comme des récompenses sur les justifications, unifiant l'apprentissage de représentations avec la génération pour produire des embeddings plus robustes et des justifications transparentes. Le modèle, les données et le code sont disponibles à l'adresse https://github.com/GasolSun36/GRACE.

English

Prevailing methods for training Large Language Models (LLMs) as text encoders rely on contrastive losses that treat the model as a black box function, discarding its generative and reasoning capabilities in favor of static embeddings. We introduce GRACE (Generative Representation Learning via Contrastive Policy Optimization), a novel framework that reimagines contrastive signals not as losses to be minimized, but as rewards that guide a generative policy. In GRACE, the LLM acts as a policy that produces explicit, human-interpretable rationales--structured natural language explanations of its semantic understanding. These rationales are then encoded into high-quality embeddings via mean pooling. Using policy gradient optimization, we train the model with a multi-component reward function that maximizes similarity between query positive pairs and minimizes similarity with negatives. This transforms the LLM from an opaque encoder into an interpretable agent whose reasoning process is transparent and inspectable. On MTEB benchmark, GRACE yields broad cross category gains: averaged over four backbones, the supervised setting improves overall score by 11.5% over base models, and the unsupervised variant adds 6.9%, while preserving general capabilities. This work treats contrastive objectives as rewards over rationales, unifying representation learning with generation to produce stronger embeddings and transparent rationales. The model, data and code are available at https://github.com/GasolSun36/GRACE.

GRACE : Apprentissage de représentations génératives via l'optimisation de politiques contrastives

GRACE: Generative Representation Learning via Contrastive Policy Optimization

papers.abstract

Support