GRACE: Aprendizaje de Representaciones Generativas mediante Optimización de Políticas por Contraste
GRACE: Generative Representation Learning via Contrastive Policy Optimization
October 6, 2025
Autores: Jiashuo Sun, Shixuan Liu, Zhaochen Su, Xianrui Zhong, Pengcheng Jiang, Bowen Jin, Peiran Li, Weijia Shi, Jiawei Han
cs.AI
Resumen
Los métodos predominantes para entrenar Modelos de Lenguaje a Gran Escala (LLMs) como codificadores de texto se basan en pérdidas contrastivas que tratan al modelo como una función de caja negra, descartando sus capacidades generativas y de razonamiento en favor de incrustaciones estáticas. Presentamos GRACE (Generative Representation Learning via Contrastive Policy Optimization), un marco novedoso que reinterpreta las señales contrastivas no como pérdidas que deben minimizarse, sino como recompensas que guían una política generativa. En GRACE, el LLM actúa como una política que produce racionales explícitos e interpretables por humanos—explicaciones estructuradas en lenguaje natural de su comprensión semántica. Estos racionales se codifican luego en incrustaciones de alta calidad mediante agrupación promedio. Utilizando optimización de gradiente de políticas, entrenamos el modelo con una función de recompensa multicomponente que maximiza la similitud entre pares positivos de consultas y minimiza la similitud con negativos. Esto transforma el LLM de un codificador opaco en un agente interpretable cuyo proceso de razonamiento es transparente e inspeccionable. En el benchmark MTEB, GRACE produce mejoras amplias en todas las categorías: en promedio sobre cuatro arquitecturas base, el ajuste supervisado mejora la puntuación general en un 11.5% sobre los modelos base, y la variante no supervisada añade un 6.9%, mientras se preservan las capacidades generales. Este trabajo trata los objetivos contrastivos como recompensas sobre racionales, unificando el aprendizaje de representaciones con la generación para producir incrustaciones más sólidas y racionales transparentes. El modelo, los datos y el código están disponibles en https://github.com/GasolSun36/GRACE.
English
Prevailing methods for training Large Language Models (LLMs) as text encoders
rely on contrastive losses that treat the model as a black box function,
discarding its generative and reasoning capabilities in favor of static
embeddings. We introduce GRACE (Generative Representation Learning via
Contrastive Policy Optimization), a novel framework that reimagines contrastive
signals not as losses to be minimized, but as rewards that guide a generative
policy. In GRACE, the LLM acts as a policy that produces explicit,
human-interpretable rationales--structured natural language explanations of its
semantic understanding. These rationales are then encoded into high-quality
embeddings via mean pooling. Using policy gradient optimization, we train the
model with a multi-component reward function that maximizes similarity between
query positive pairs and minimizes similarity with negatives. This transforms
the LLM from an opaque encoder into an interpretable agent whose reasoning
process is transparent and inspectable. On MTEB benchmark, GRACE yields broad
cross category gains: averaged over four backbones, the supervised setting
improves overall score by 11.5% over base models, and the unsupervised variant
adds 6.9%, while preserving general capabilities. This work treats contrastive
objectives as rewards over rationales, unifying representation learning with
generation to produce stronger embeddings and transparent rationales. The
model, data and code are available at https://github.com/GasolSun36/GRACE.