GRACE: Aprendizado de Representação Generativa via Otimização de Política Contrastiva
GRACE: Generative Representation Learning via Contrastive Policy Optimization
October 6, 2025
Autores: Jiashuo Sun, Shixuan Liu, Zhaochen Su, Xianrui Zhong, Pengcheng Jiang, Bowen Jin, Peiran Li, Weijia Shi, Jiawei Han
cs.AI
Resumo
Os métodos predominantes para treinar Modelos de Linguagem de Grande Escala (LLMs) como codificadores de texto dependem de perdas contrastivas que tratam o modelo como uma função de caixa preta, descartando suas capacidades gerativas e de raciocínio em favor de embeddings estáticos. Apresentamos o GRACE (Generative Representation Learning via Contrastive Policy Optimization), um novo framework que reconcebe sinais contrastivos não como perdas a serem minimizadas, mas como recompensas que orientam uma política generativa. No GRACE, o LLM atua como uma política que produz racionais explícitos e interpretáveis por humanos—explicações estruturadas em linguagem natural de sua compreensão semântica. Esses racionais são então codificados em embeddings de alta qualidade por meio de agregação média. Utilizando otimização por gradiente de política, treinamos o modelo com uma função de recompensa multicomponente que maximiza a similaridade entre pares positivos de consulta e minimiza a similaridade com negativos. Isso transforma o LLM de um codificador opaco em um agente interpretável cujo processo de raciocínio é transparente e inspecionável. No benchmark MTEB, o GRACE produz ganhos amplos em várias categorias: em média, considerando quatro backbones, o cenário supervisionado melhora a pontuação geral em 11,5% em relação aos modelos base, e a variante não supervisionada adiciona 6,9%, enquanto preserva as capacidades gerais. Este trabalho trata objetivos contrastivos como recompensas sobre racionais, unificando o aprendizado de representação com a geração para produzir embeddings mais robustos e racionais transparentes. O modelo, dados e código estão disponíveis em https://github.com/GasolSun36/GRACE.
English
Prevailing methods for training Large Language Models (LLMs) as text encoders
rely on contrastive losses that treat the model as a black box function,
discarding its generative and reasoning capabilities in favor of static
embeddings. We introduce GRACE (Generative Representation Learning via
Contrastive Policy Optimization), a novel framework that reimagines contrastive
signals not as losses to be minimized, but as rewards that guide a generative
policy. In GRACE, the LLM acts as a policy that produces explicit,
human-interpretable rationales--structured natural language explanations of its
semantic understanding. These rationales are then encoded into high-quality
embeddings via mean pooling. Using policy gradient optimization, we train the
model with a multi-component reward function that maximizes similarity between
query positive pairs and minimizes similarity with negatives. This transforms
the LLM from an opaque encoder into an interpretable agent whose reasoning
process is transparent and inspectable. On MTEB benchmark, GRACE yields broad
cross category gains: averaged over four backbones, the supervised setting
improves overall score by 11.5% over base models, and the unsupervised variant
adds 6.9%, while preserving general capabilities. This work treats contrastive
objectives as rewards over rationales, unifying representation learning with
generation to produce stronger embeddings and transparent rationales. The
model, data and code are available at https://github.com/GasolSun36/GRACE.