GRACE: Apprendimento Rappresentativo Generativo tramite Ottimizzazione di Politiche Contrastive
GRACE: Generative Representation Learning via Contrastive Policy Optimization
October 6, 2025
Autori: Jiashuo Sun, Shixuan Liu, Zhaochen Su, Xianrui Zhong, Pengcheng Jiang, Bowen Jin, Peiran Li, Weijia Shi, Jiawei Han
cs.AI
Abstract
I metodi prevalenti per l'addestramento di Large Language Models (LLM) come encoder di testo si basano su perdite contrastive che trattano il modello come una funzione black box, scartando le sue capacità generative e di ragionamento a favore di embedding statici. Introduciamo GRACE (Generative Representation Learning via Contrastive Policy Optimization), un nuovo framework che reinterpreta i segnali contrastive non come perdite da minimizzare, ma come ricompense che guidano una politica generativa. In GRACE, l'LLM agisce come una politica che produce razionali espliciti e interpretabili dagli esseri umani - spiegazioni in linguaggio naturale strutturato della sua comprensione semantica. Questi razionali vengono poi codificati in embedding di alta qualità tramite mean pooling. Utilizzando l'ottimizzazione con gradienti di politica, addestriamo il modello con una funzione di ricompensa multi-componente che massimizza la similarità tra coppie positive di query e minimizza la similarità con quelle negative. Ciò trasforma l'LLM da un encoder opaco in un agente interpretabile il cui processo di ragionamento è trasparente e ispezionabile. Sul benchmark MTEB, GRACE produce ampi guadagni trasversali alle categorie: mediamente su quattro backbone, l'impostazione supervisionata migliora il punteggio complessivo dell'11,5% rispetto ai modelli base, e la variante non supervisionata aggiunge il 6,9%, preservando le capacità generali. Questo lavoro tratta gli obiettivi contrastive come ricompense sui razionali, unendo l'apprendimento di rappresentazione con la generazione per produrre embedding più robusti e razionali trasparenti. Il modello, i dati e il codice sono disponibili all'indirizzo https://github.com/GasolSun36/GRACE.
English
Prevailing methods for training Large Language Models (LLMs) as text encoders
rely on contrastive losses that treat the model as a black box function,
discarding its generative and reasoning capabilities in favor of static
embeddings. We introduce GRACE (Generative Representation Learning via
Contrastive Policy Optimization), a novel framework that reimagines contrastive
signals not as losses to be minimized, but as rewards that guide a generative
policy. In GRACE, the LLM acts as a policy that produces explicit,
human-interpretable rationales--structured natural language explanations of its
semantic understanding. These rationales are then encoded into high-quality
embeddings via mean pooling. Using policy gradient optimization, we train the
model with a multi-component reward function that maximizes similarity between
query positive pairs and minimizes similarity with negatives. This transforms
the LLM from an opaque encoder into an interpretable agent whose reasoning
process is transparent and inspectable. On MTEB benchmark, GRACE yields broad
cross category gains: averaged over four backbones, the supervised setting
improves overall score by 11.5% over base models, and the unsupervised variant
adds 6.9%, while preserving general capabilities. This work treats contrastive
objectives as rewards over rationales, unifying representation learning with
generation to produce stronger embeddings and transparent rationales. The
model, data and code are available at https://github.com/GasolSun36/GRACE.