GRACE: Генеративное обучение представлений через контрастную оптимизацию политик
GRACE: Generative Representation Learning via Contrastive Policy Optimization
October 6, 2025
Авторы: Jiashuo Sun, Shixuan Liu, Zhaochen Su, Xianrui Zhong, Pengcheng Jiang, Bowen Jin, Peiran Li, Weijia Shi, Jiawei Han
cs.AI
Аннотация
Преобладающие методы обучения больших языковых моделей (LLM) в качестве текстовых энкодеров основываются на контрастных функциях потерь, которые рассматривают модель как черный ящик, отбрасывая её генеративные и логические способности в пользу статических эмбэддингов. Мы представляем GRACE (Generative Representation Learning via Contrastive Policy Optimization) — новый фреймворк, который переосмысливает контрастные сигналы не как потери, которые нужно минимизировать, а как награды, направляющие генеративную политику. В GRACE LLM выступает в роли политики, которая создает явные, интерпретируемые человеком рациональные объяснения — структурированные естественно-языковые объяснения её семантического понимания. Эти объяснения затем кодируются в высококачественные эмбэддинги с помощью усреднения (mean pooling). Используя оптимизацию методом градиента политики, мы обучаем модель с многокомпонентной функцией награды, которая максимизирует сходство между положительными парами запросов и минимизирует сходство с отрицательными. Это превращает LLM из непрозрачного энкодера в интерпретируемого агента, чей процесс рассуждения прозрачен и доступен для анализа. На бенчмарке MTEB GRACE демонстрирует значительные улучшения в различных категориях: в среднем по четырем базовым моделям, контролируемая настройка улучшает общий показатель на 11.5% по сравнению с базовыми моделями, а неконтролируемый вариант добавляет 6.9%, сохраняя при этом общие способности. Эта работа рассматривает контрастные цели как награды за рациональные объяснения, объединяя обучение представлений с генерацией для создания более сильных эмбэддингов и прозрачных объяснений. Модель, данные и код доступны по адресу https://github.com/GasolSun36/GRACE.
English
Prevailing methods for training Large Language Models (LLMs) as text encoders
rely on contrastive losses that treat the model as a black box function,
discarding its generative and reasoning capabilities in favor of static
embeddings. We introduce GRACE (Generative Representation Learning via
Contrastive Policy Optimization), a novel framework that reimagines contrastive
signals not as losses to be minimized, but as rewards that guide a generative
policy. In GRACE, the LLM acts as a policy that produces explicit,
human-interpretable rationales--structured natural language explanations of its
semantic understanding. These rationales are then encoded into high-quality
embeddings via mean pooling. Using policy gradient optimization, we train the
model with a multi-component reward function that maximizes similarity between
query positive pairs and minimizes similarity with negatives. This transforms
the LLM from an opaque encoder into an interpretable agent whose reasoning
process is transparent and inspectable. On MTEB benchmark, GRACE yields broad
cross category gains: averaged over four backbones, the supervised setting
improves overall score by 11.5% over base models, and the unsupervised variant
adds 6.9%, while preserving general capabilities. This work treats contrastive
objectives as rewards over rationales, unifying representation learning with
generation to produce stronger embeddings and transparent rationales. The
model, data and code are available at https://github.com/GasolSun36/GRACE.