LLM2Vec-Gen: Incorporações Generativas a partir de Modelos de Linguagem de Grande Porte

Resumo

Os incorporadores de texto baseados em LLM normalmente codificam o conteúdo semântico de sua entrada. No entanto, tarefas de incorporação exigem o mapeamento de entradas diversas para saídas semelhantes. Tipicamente, essa relação entrada-saída é abordada treinando modelos de incorporação com dados pareados usando aprendizado contrastivo. Neste trabalho, propomos uma nova abordagem auto-supervisionada, LLM2Vec-Gen, que adota um paradigma diferente: em vez de codificar a entrada, aprendemos a representar a resposta potencial do modelo. Especificamente, adicionamos tokens especiais treináveis ao vocabulário do LLM, os anexamos à entrada e os otimizamos para representar a resposta do LLM em uma sequência de comprimento fixo. O treinamento é orientado pela própria conclusão do LLM para a consulta, juntamente com um professor de incorporação não supervisionado que fornece alvos de destilação. Esta formulação ajuda a preencher a lacuna entrada-saída e transfere capacidades do LLM, como alinhamento de segurança e raciocínio, para tarefas de incorporação. Crucialmente, a espinha dorsal do LLM permanece congelada e o treinamento requer apenas consultas não rotuladas. O LLM2Vec-Gen atinge desempenho auto-supervisionado state-of-the-art no Massive Text Embedding Benchmark (MTEB), melhorando em 9,3% em relação ao melhor professor de incorporação não supervisionado. Também observamos uma redução de até 43,2% na recuperação de conteúdo prejudicial e uma melhoria de 29,3% nas capacidades de raciocínio para tarefas de incorporação. Finalmente, as incorporações aprendidas são interpretáveis e podem ser decodificadas em texto para revelar seu conteúdo semântico.

English

LLM-based text embedders typically encode the semantic content of their input. However, embedding tasks require mapping diverse inputs to similar outputs. Typically, this input-output is addressed by training embedding models with paired data using contrastive learning. In this work, we propose a novel self-supervised approach, LLM2Vec-Gen, which adopts a different paradigm: rather than encoding the input, we learn to represent the model's potential response. Specifically, we add trainable special tokens to the LLM's vocabulary, append them to input, and optimize them to represent the LLM's response in a fixed-length sequence. Training is guided by the LLM's own completion for the query, along with an unsupervised embedding teacher that provides distillation targets. This formulation helps to bridge the input-output gap and transfers LLM capabilities such as safety alignment and reasoning to embedding tasks. Crucially, the LLM backbone remains frozen and training requires only unlabeled queries. LLM2Vec-Gen achieves state-of-the-art self-supervised performance on the Massive Text Embedding Benchmark (MTEB), improving by 9.3% over the best unsupervised embedding teacher. We also observe up to 43.2% reduction in harmful content retrieval and 29.3% improvement in reasoning capabilities for embedding tasks. Finally, the learned embeddings are interpretable and can be decoded into text to reveal their semantic content.

LLM2Vec-Gen: Incorporações Generativas a partir de Modelos de Linguagem de Grande Porte

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Resumo

Support