LLM2Vec-Gen: Generative Einbettungen aus großen Sprachmodellen

Zusammenfassung

LLM-basierte Text-Embedder kodieren typischerweise den semantischen Inhalt ihrer Eingabe. Einbettungsaufgaben erfordern jedoch die Abbildung unterschiedlicher Eingaben auf ähnliche Ausgaben. Üblicherweise wird diese Eingabe-Ausgabe-Problematik durch das Training von Embedding-Modellen mit gepaarten Daten mittels Contrastive Learning adressiert. In dieser Arbeit schlagen wir einen neuartigen, selbstüberwachten Ansatz namens LLM2Vec-Gen vor, der ein anderes Paradigma verfolgt: Anstatt die Eingabe zu kodieren, lernen wir, die potenzielle Antwort des Modells zu repräsentieren. Konkret fügen wir dem Vokabular des LLM trainierbare Sonder-Tokens hinzu, hängen diese an die Eingabe an und optimieren sie so, dass sie die Antwort des LLM in einer festen Sequenzlänge repräsentieren. Das Training wird durch die eigene Vervollständigung der Abfrage durch das LLM sowie einen unbeaufsichtigten Embedding-Teacher geleitet, der Distillationsziele bereitstellt. Diese Formulierung hilft, die Lücke zwischen Eingabe und Ausgabe zu überbrücken und überträgt LLM-Fähigkeiten wie Sicherheitsausrichtung (Safety Alignment) und logisches Denken auf Embedding-Aufgaben. Entscheidend ist, dass das LLM-Backbone eingefroren bleibt und das Training nur unbeaufsichtigte Abfragen erfordert. LLM2Vec-Gen erzielt state-of-the-art Leistung im selbstüberwachten Bereich auf dem Massive Text Embedding Benchmark (MTEB) und verbessert sich um 9,3 % gegenüber dem besten unbeaufsichtigten Embedding-Teacher. Wir beobachten außerdem eine Reduzierung des Abrufs schädlicher Inhalte um bis zu 43,2 % und eine Verbesserung der Reasoning-Fähigkeiten bei Embedding-Aufgaben um 29,3 %. Schließlich sind die gelernten Einbettungen interpretierbar und können in Text decodiert werden, um ihren semantischen Inhalt offenzulegen.

English

LLM-based text embedders typically encode the semantic content of their input. However, embedding tasks require mapping diverse inputs to similar outputs. Typically, this input-output is addressed by training embedding models with paired data using contrastive learning. In this work, we propose a novel self-supervised approach, LLM2Vec-Gen, which adopts a different paradigm: rather than encoding the input, we learn to represent the model's potential response. Specifically, we add trainable special tokens to the LLM's vocabulary, append them to input, and optimize them to represent the LLM's response in a fixed-length sequence. Training is guided by the LLM's own completion for the query, along with an unsupervised embedding teacher that provides distillation targets. This formulation helps to bridge the input-output gap and transfers LLM capabilities such as safety alignment and reasoning to embedding tasks. Crucially, the LLM backbone remains frozen and training requires only unlabeled queries. LLM2Vec-Gen achieves state-of-the-art self-supervised performance on the Massive Text Embedding Benchmark (MTEB), improving by 9.3% over the best unsupervised embedding teacher. We also observe up to 43.2% reduction in harmful content retrieval and 29.3% improvement in reasoning capabilities for embedding tasks. Finally, the learned embeddings are interpretable and can be decoded into text to reveal their semantic content.

LLM2Vec-Gen: Generative Einbettungen aus großen Sprachmodellen

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Zusammenfassung

Support