GRACE: Generatief Representatie Leren via Contrastief Beleidsoptimalisatie
GRACE: Generative Representation Learning via Contrastive Policy Optimization
October 6, 2025
Auteurs: Jiashuo Sun, Shixuan Liu, Zhaochen Su, Xianrui Zhong, Pengcheng Jiang, Bowen Jin, Peiran Li, Weijia Shi, Jiawei Han
cs.AI
Samenvatting
De gangbare methoden voor het trainen van Large Language Models (LLM's) als tekstencoders
vertrouwen op contrastieve verliezen die het model behandelen als een black box-functie,
waarbij de generatieve en redeneervermogen worden verworpen ten gunste van statische
embeddings. Wij introduceren GRACE (Generative Representation Learning via
Contrastive Policy Optimization), een nieuw framework dat contrastieve signalen
herinterpreteert, niet als verliezen die moeten worden geminimaliseerd, maar als beloningen die een generatief beleid sturen. In GRACE fungeert de LLM als een beleid dat expliciete,
mens-interpreteerbare rationales produceert--gestructureerde natuurlijke taalverklaringen van zijn
semantische begrip. Deze rationales worden vervolgens gecodeerd in hoogwaardige
embeddings via mean pooling. Met behulp van beleidsgradiëntoptimalisatie trainen we het
model met een meervoudige beloningsfunctie die de gelijkenis tussen
query-positieve paren maximaliseert en de gelijkenis met negatieven minimaliseert. Dit transformeert
de LLM van een ondoorzichtige encoder naar een interpreteerbare agent waarvan het redeneerproces transparant en inspecteerbaar is. Op de MTEB-benchmark levert GRACE brede
cross-categorie winsten op: gemiddeld over vier backbones verbetert de gesuperviseerde setting
de algehele score met 11,5% ten opzichte van basismodellen, en de niet-gesuperviseerde variant
voegt 6,9% toe, terwijl algemene capaciteiten behouden blijven. Dit werk behandelt contrastieve
doelstellingen als beloningen over rationales, waardoor representatieleren wordt verenigd met
generatie om sterkere embeddings en transparante rationales te produceren. Het
model, de data en de code zijn beschikbaar op https://github.com/GasolSun36/GRACE.
English
Prevailing methods for training Large Language Models (LLMs) as text encoders
rely on contrastive losses that treat the model as a black box function,
discarding its generative and reasoning capabilities in favor of static
embeddings. We introduce GRACE (Generative Representation Learning via
Contrastive Policy Optimization), a novel framework that reimagines contrastive
signals not as losses to be minimized, but as rewards that guide a generative
policy. In GRACE, the LLM acts as a policy that produces explicit,
human-interpretable rationales--structured natural language explanations of its
semantic understanding. These rationales are then encoded into high-quality
embeddings via mean pooling. Using policy gradient optimization, we train the
model with a multi-component reward function that maximizes similarity between
query positive pairs and minimizes similarity with negatives. This transforms
the LLM from an opaque encoder into an interpretable agent whose reasoning
process is transparent and inspectable. On MTEB benchmark, GRACE yields broad
cross category gains: averaged over four backbones, the supervised setting
improves overall score by 11.5% over base models, and the unsupervised variant
adds 6.9%, while preserving general capabilities. This work treats contrastive
objectives as rewards over rationales, unifying representation learning with
generation to produce stronger embeddings and transparent rationales. The
model, data and code are available at https://github.com/GasolSun36/GRACE.