GRACE: Generatives Repräsentationslernen durch kontrastive Politikoptimierung
GRACE: Generative Representation Learning via Contrastive Policy Optimization
October 6, 2025
papers.authors: Jiashuo Sun, Shixuan Liu, Zhaochen Su, Xianrui Zhong, Pengcheng Jiang, Bowen Jin, Peiran Li, Weijia Shi, Jiawei Han
cs.AI
papers.abstract
Vorherrschende Methoden zur Ausbildung von Large Language Models (LLMs) als Text-Encoder basieren auf kontrastiven Verlustfunktionen, die das Modell als Black-Box-Funktion behandeln und dessen generative und schlussfolgernde Fähigkeiten zugunsten statischer Embeddings vernachlässigen. Wir stellen GRACE (Generative Representation Learning via Contrastive Policy Optimization) vor, ein neuartiges Framework, das kontrastive Signale nicht als zu minimierende Verluste, sondern als Belohnungen betrachtet, die eine generative Policy steuern. In GRACE fungiert das LLM als eine Policy, die explizite, für Menschen interpretierbare Rationale erzeugt – strukturierte natürliche Sprache, die sein semantisches Verständnis erklärt. Diese Rationale werden anschließend durch Mean Pooling in hochwertige Embeddings kodiert. Mithilfe von Policy-Gradient-Optimierung trainieren wir das Modell mit einer mehrkomponentigen Belohnungsfunktion, die die Ähnlichkeit zwischen positiven Paaren maximiert und die Ähnlichkeit mit negativen Paaren minimiert. Dadurch wird das LLM von einem undurchsichtigen Encoder in einen interpretierbaren Agenten transformiert, dessen Schlussfolgerungsprozess transparent und überprüfbar ist. Im MTEB-Benchmark erzielt GRACE breite Verbesserungen über verschiedene Kategorien hinweg: Im überwachten Setting verbessert sich der Gesamtscore im Durchschnitt über vier Backbones um 11,5 % gegenüber den Basismodellen, während die unüberwachte Variante 6,9 % hinzufügt, ohne die allgemeinen Fähigkeiten zu beeinträchtigen. Diese Arbeit behandelt kontrastive Ziele als Belohnungen für Rationale und vereint Repräsentationslernen mit Generierung, um stärkere Embeddings und transparente Rationale zu erzeugen. Das Modell, die Daten und der Code sind unter https://github.com/GasolSun36/GRACE verfügbar.
English
Prevailing methods for training Large Language Models (LLMs) as text encoders
rely on contrastive losses that treat the model as a black box function,
discarding its generative and reasoning capabilities in favor of static
embeddings. We introduce GRACE (Generative Representation Learning via
Contrastive Policy Optimization), a novel framework that reimagines contrastive
signals not as losses to be minimized, but as rewards that guide a generative
policy. In GRACE, the LLM acts as a policy that produces explicit,
human-interpretable rationales--structured natural language explanations of its
semantic understanding. These rationales are then encoded into high-quality
embeddings via mean pooling. Using policy gradient optimization, we train the
model with a multi-component reward function that maximizes similarity between
query positive pairs and minimizes similarity with negatives. This transforms
the LLM from an opaque encoder into an interpretable agent whose reasoning
process is transparent and inspectable. On MTEB benchmark, GRACE yields broad
cross category gains: averaged over four backbones, the supervised setting
improves overall score by 11.5% over base models, and the unsupervised variant
adds 6.9%, while preserving general capabilities. This work treats contrastive
objectives as rewards over rationales, unifying representation learning with
generation to produce stronger embeddings and transparent rationales. The
model, data and code are available at https://github.com/GasolSun36/GRACE.