LLM2Vec: Große Sprachmodelle sind heimlich leistungsstarke Textkodierer.
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
April 9, 2024
Autoren: Parishad BehnamGhader, Vaibhav Adlakha, Marius Mosbach, Dzmitry Bahdanau, Nicolas Chapados, Siva Reddy
cs.AI
Zusammenfassung
Große Decoder-Only-Sprachmodelle (LLMs) sind die modernsten Modelle für die meisten heutigen NLP-Aufgaben und Benchmarks. Dennoch übernimmt die Gemeinschaft nur langsam diese Modelle für Texteinbettungsaufgaben, die reichhaltige kontextualisierte Darstellungen erfordern. In dieser Arbeit stellen wir LLM2Vec vor, einen einfachen unüberwachten Ansatz, der jedes Decoder-Only-LLM in einen leistungsstarken Textencoder umwandeln kann. LLM2Vec besteht aus drei einfachen Schritten: 1) Aktivierung bidirektionaler Aufmerksamkeit, 2) maskierte Vorhersage des nächsten Tokens und 3) unüberwachtes kontrastives Lernen. Wir zeigen die Wirksamkeit von LLM2Vec, indem wir es auf 3 beliebte LLMs mit Parametern von 1,3 Mrd. bis 7 Mrd. anwenden und die transformierten Modelle auf englischen Wort- und Sequenzebene-Aufgaben evaluieren. Wir übertreffen Encoder-Only-Modelle bei Wortebene-Aufgaben deutlich und erreichen eine neue unüberwachte State-of-the-Art-Leistung im Massive Text Embeddings Benchmark (MTEB). Darüber hinaus erreichen wir durch die Kombination von LLM2Vec mit überwachtem kontrastivem Lernen eine State-of-the-Art-Leistung im MTEB unter Modellen, die nur auf öffentlich verfügbaren Daten trainieren. Unsere starken empirischen Ergebnisse und umfangreiche Analyse zeigen, dass LLMs effektiv in universelle Textencoder auf parameter-effiziente Weise umgewandelt werden können, ohne teure Anpassungen oder synthetische, von GPT-4 generierte Daten zu benötigen.
English
Large decoder-only language models (LLMs) are the state-of-the-art models on
most of today's NLP tasks and benchmarks. Yet, the community is only slowly
adopting these models for text embedding tasks, which require rich
contextualized representations. In this work, we introduce LLM2Vec, a simple
unsupervised approach that can transform any decoder-only LLM into a strong
text encoder. LLM2Vec consists of three simple steps: 1) enabling bidirectional
attention, 2) masked next token prediction, and 3) unsupervised contrastive
learning. We demonstrate the effectiveness of LLM2Vec by applying it to 3
popular LLMs ranging from 1.3B to 7B parameters and evaluate the transformed
models on English word- and sequence-level tasks. We outperform encoder-only
models by a large margin on word-level tasks and reach a new unsupervised
state-of-the-art performance on the Massive Text Embeddings Benchmark (MTEB).
Moreover, when combining LLM2Vec with supervised contrastive learning, we
achieve state-of-the-art performance on MTEB among models that train only on
publicly available data. Our strong empirical results and extensive analysis
demonstrate that LLMs can be effectively transformed into universal text
encoders in a parameter-efficient manner without the need for expensive
adaptation or synthetic GPT-4 generated data.Summary
AI-Generated Summary