GRACE : Apprentissage de représentations génératives via l'optimisation de politiques contrastives
GRACE: Generative Representation Learning via Contrastive Policy Optimization
October 6, 2025
papers.authors: Jiashuo Sun, Shixuan Liu, Zhaochen Su, Xianrui Zhong, Pengcheng Jiang, Bowen Jin, Peiran Li, Weijia Shi, Jiawei Han
cs.AI
papers.abstract
Les méthodes prédominantes pour entraîner les modèles de langage de grande taille (LLM) en tant qu'encodeurs de texte reposent sur des pertes contrastives qui traitent le modèle comme une fonction boîte noire, abandonnant ses capacités génératives et de raisonnement au profit d'embeddings statiques. Nous présentons GRACE (Generative Representation Learning via Contrastive Policy Optimization), un cadre novateur qui réinvente les signaux contrastifs non pas comme des pertes à minimiser, mais comme des récompenses guidant une politique générative. Dans GRACE, le LLM agit comme une politique produisant des justifications explicites et interprétables par l'homme - des explications en langage naturel structurées de sa compréhension sémantique. Ces justifications sont ensuite encodées en embeddings de haute qualité via un pooling moyen. En utilisant l'optimisation par gradient de politique, nous entraînons le modèle avec une fonction de récompense multi-composantes qui maximise la similarité entre les paires positives de requêtes et minimise la similarité avec les négatives. Cela transforme le LLM d'un encodeur opaque en un agent interprétable dont le processus de raisonnement est transparent et inspectable. Sur le benchmark MTEB, GRACE apporte des gains transversaux : en moyenne sur quatre architectures, le cadre supervisé améliore le score global de 11,5 % par rapport aux modèles de base, et la variante non supervisée ajoute 6,9 %, tout en préservant les capacités générales. Ce travail traite les objectifs contrastifs comme des récompenses sur les justifications, unifiant l'apprentissage de représentations avec la génération pour produire des embeddings plus robustes et des justifications transparentes. Le modèle, les données et le code sont disponibles à l'adresse https://github.com/GasolSun36/GRACE.
English
Prevailing methods for training Large Language Models (LLMs) as text encoders
rely on contrastive losses that treat the model as a black box function,
discarding its generative and reasoning capabilities in favor of static
embeddings. We introduce GRACE (Generative Representation Learning via
Contrastive Policy Optimization), a novel framework that reimagines contrastive
signals not as losses to be minimized, but as rewards that guide a generative
policy. In GRACE, the LLM acts as a policy that produces explicit,
human-interpretable rationales--structured natural language explanations of its
semantic understanding. These rationales are then encoded into high-quality
embeddings via mean pooling. Using policy gradient optimization, we train the
model with a multi-component reward function that maximizes similarity between
query positive pairs and minimizes similarity with negatives. This transforms
the LLM from an opaque encoder into an interpretable agent whose reasoning
process is transparent and inspectable. On MTEB benchmark, GRACE yields broad
cross category gains: averaged over four backbones, the supervised setting
improves overall score by 11.5% over base models, and the unsupervised variant
adds 6.9%, while preserving general capabilities. This work treats contrastive
objectives as rewards over rationales, unifying representation learning with
generation to produce stronger embeddings and transparent rationales. The
model, data and code are available at https://github.com/GasolSun36/GRACE.