LLM2Vec-Gen: Generatieve Embeddings van Grote Taalmodellen

Samenvatting

Op LLM gebaseerde tekst-embedders coderen typisch de semantische inhoud van hun invoer. Embeddingtaken vereisen echter het afbeelden van diverse invoeren op vergelijkbare uitvoeren. Normaal gesproken wordt deze invoer-uitvoerrelatie aangepakt door embeddingmodellen te trainen met gepaarde data via contrastief leren. In dit werk stellen we een nieuwe zelfgesuperviseerde aanpak voor, LLM2Vec-Gen, die een ander paradigma hanteert: in plaats van de invoer te coderen, leren we de potentiële respons van het model te representeren. Concreet voegen we trainbare speciale tokens toe aan de vocabulaire van de LLM, plakken deze vast aan de invoer, en optimaliseren ze om de respons van de LLM te representeren in een vaste-lengte sequentie. De training wordt gestuurd door de LLM's eigen voltooiing van de query, samen met een ongesuperviseerde embedding-leraar die distillatiedoelen verschaft. Deze formulering helpt de kloof tussen invoer en uitvoer te overbruggen en transfert LLM-capaciteiten zoals veiligheidsafstemming en redeneervermogen naar embeddingtaken. Cruciaal is dat de LLM-backbone bevroren blijft en de training alleen ongelabelde queries vereist. LLM2Vec-Gen behaalt state-of-the-art zelfgesuperviseerde prestaties op de Massive Text Embedding Benchmark (MTEB), met een verbetering van 9,3% ten opzichte van de beste ongesuperviseerde embedding-leraar. We observeren ook een reductie tot 43,2% in het ophalen van schadelijke content en een verbetering van 29,3% in redeneervermogen voor embeddingtaken. Ten slotte zijn de geleerde embeddings interpreteerbaar en kunnen ze worden gedecodeerd naar tekst om hun semantische inhoud te onthullen.

English

LLM-based text embedders typically encode the semantic content of their input. However, embedding tasks require mapping diverse inputs to similar outputs. Typically, this input-output is addressed by training embedding models with paired data using contrastive learning. In this work, we propose a novel self-supervised approach, LLM2Vec-Gen, which adopts a different paradigm: rather than encoding the input, we learn to represent the model's potential response. Specifically, we add trainable special tokens to the LLM's vocabulary, append them to input, and optimize them to represent the LLM's response in a fixed-length sequence. Training is guided by the LLM's own completion for the query, along with an unsupervised embedding teacher that provides distillation targets. This formulation helps to bridge the input-output gap and transfers LLM capabilities such as safety alignment and reasoning to embedding tasks. Crucially, the LLM backbone remains frozen and training requires only unlabeled queries. LLM2Vec-Gen achieves state-of-the-art self-supervised performance on the Massive Text Embedding Benchmark (MTEB), improving by 9.3% over the best unsupervised embedding teacher. We also observe up to 43.2% reduction in harmful content retrieval and 29.3% improvement in reasoning capabilities for embedding tasks. Finally, the learned embeddings are interpretable and can be decoded into text to reveal their semantic content.

LLM2Vec-Gen: Generatieve Embeddings van Grote Taalmodellen

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Samenvatting

Support