LLM2Vec-Gen : Génération d'embeddings par modèles de langage de grande taille

Résumé

Les encodeurs de texte basés sur LLM encodent typiquement le contenu sémantique de leur entrée. Cependant, les tâches d'embedding nécessitent de mapper des entrées diverses vers des sorties similaires. Typiquement, cette relation entrée-sortie est abordée en entraînant des modèles d'embedding avec des données appariées en utilisant l'apprentissage contrastif. Dans ce travail, nous proposons une nouvelle approche auto-supervisée, LLM2Vec-Gen, qui adopte un paradigme différent : plutôt que d'encoder l'entrée, nous apprenons à représenter la réponse potentielle du modèle. Spécifiquement, nous ajoutons des tokens spéciaux entraînables au vocabulaire du LLM, les ajoutons à l'entrée, et les optimisons pour représenter la réponse du LLM dans une séquence de longueur fixe. L'entraînement est guidé par la propre complétion du LLM pour la requête, ainsi que par un enseignant d'embedding non supervisé qui fournit des cibles de distillation. Cette formulation aide à combler l'écart entrée-sortie et transfère des capacités du LLM telles que l'alignement de sécurité et le raisonnement vers les tâches d'embedding. Crucialement, l'architecture de base du LLM reste gelée et l'entraînement ne nécessite que des requêtes non étiquetées. LLM2Vec-Gen atteint des performances auto-supervisées de pointe sur le *Massive Text Embedding Benchmark* (MTEB), s'améliorant de 9,3 % par rapport au meilleur enseignant d'embedding non supervisé. Nous observons également une réduction allant jusqu'à 43,2 % du contenu nuisible récupéré et une amélioration de 29,3 % des capacités de raisonnement pour les tâches d'embedding. Enfin, les embeddings appris sont interprétables et peuvent être décodés en texte pour révéler leur contenu sémantique.

English

LLM-based text embedders typically encode the semantic content of their input. However, embedding tasks require mapping diverse inputs to similar outputs. Typically, this input-output is addressed by training embedding models with paired data using contrastive learning. In this work, we propose a novel self-supervised approach, LLM2Vec-Gen, which adopts a different paradigm: rather than encoding the input, we learn to represent the model's potential response. Specifically, we add trainable special tokens to the LLM's vocabulary, append them to input, and optimize them to represent the LLM's response in a fixed-length sequence. Training is guided by the LLM's own completion for the query, along with an unsupervised embedding teacher that provides distillation targets. This formulation helps to bridge the input-output gap and transfers LLM capabilities such as safety alignment and reasoning to embedding tasks. Crucially, the LLM backbone remains frozen and training requires only unlabeled queries. LLM2Vec-Gen achieves state-of-the-art self-supervised performance on the Massive Text Embedding Benchmark (MTEB), improving by 9.3% over the best unsupervised embedding teacher. We also observe up to 43.2% reduction in harmful content retrieval and 29.3% improvement in reasoning capabilities for embedding tasks. Finally, the learned embeddings are interpretable and can be decoded into text to reveal their semantic content.

LLM2Vec-Gen : Génération d'embeddings par modèles de langage de grande taille

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Résumé

Support