LLM2Vec-Gen: Генеративные эмбеддинги больших языковых моделей

Аннотация

Текстовые эмбеддеры на основе больших языковых моделей (LLM) обычно кодируют семантическое содержание входных данных. Однако задачи векторного представления требуют отображения разнородных входов в схожие выходы. Традиционно эта проблема "вход-выход" решается обучением моделей эмбеддингов на парных данных с использованием контрастивного обучения. В данной работе мы предлагаем новый самообучаемый подход LLM2Vec-Gen, который использует иную парадигму: вместо кодирования входных данных мы обучаемся представлять потенциальный ответ модели. Конкретно, мы добавляем в словарь LLM обучаемые специальные токены, присоединяем их к входу и оптимизируем их для представления ответа LLM в виде последовательности фиксированной длины. Обучение направляется собственным завершением запроса языковой моделью вместе с неконтролируемым учителем эмбеддингов, который предоставляет цели дистилляции. Такая формулировка помогает преодолеть разрыв между входом и выходом и переносит возможности LLM, такие как безопасное выравнивание и логический вывод, на задачи векторного представления. Ключевым моментом является то, что основа LLM остается замороженной, а для обучения требуются только немаркированные запросы. LLM2Vec-Gen достигает state-of-the-art результатов в самообучаемом режиме на Massive Text Embedding Benchmark (MTEB), улучшая показатель на 9,3% по сравнению с лучшим неконтролируемым учителем эмбеддингов. Мы также наблюдаем до 43,2% снижения извлечения вредоносного контента и улучшение логических способностей для задач эмбеддинга на 29,3%. Наконец, полученные эмбеддинги интерпретируемы и могут быть декодированы в текст для раскрытия их семантического содержания.

English

LLM-based text embedders typically encode the semantic content of their input. However, embedding tasks require mapping diverse inputs to similar outputs. Typically, this input-output is addressed by training embedding models with paired data using contrastive learning. In this work, we propose a novel self-supervised approach, LLM2Vec-Gen, which adopts a different paradigm: rather than encoding the input, we learn to represent the model's potential response. Specifically, we add trainable special tokens to the LLM's vocabulary, append them to input, and optimize them to represent the LLM's response in a fixed-length sequence. Training is guided by the LLM's own completion for the query, along with an unsupervised embedding teacher that provides distillation targets. This formulation helps to bridge the input-output gap and transfers LLM capabilities such as safety alignment and reasoning to embedding tasks. Crucially, the LLM backbone remains frozen and training requires only unlabeled queries. LLM2Vec-Gen achieves state-of-the-art self-supervised performance on the Massive Text Embedding Benchmark (MTEB), improving by 9.3% over the best unsupervised embedding teacher. We also observe up to 43.2% reduction in harmful content retrieval and 29.3% improvement in reasoning capabilities for embedding tasks. Finally, the learned embeddings are interpretable and can be decoded into text to reveal their semantic content.

LLM2Vec-Gen: Генеративные эмбеддинги больших языковых моделей

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Аннотация

Support