Diffusion vs. autoregressive Sprachmodelle: Eine Perspektive auf Text-Embeddings

papers.abstract

Große Sprachmodelle (LLM)-basierte Embedding-Modelle, die von umfangreichem Pre-Training und Post-Training profitieren, haben begonnen, BERT- und T5-basierte Modelle bei allgemeinen Text-Embedding-Aufgaben wie der Dokumentenrecherche zu übertreffen. Eine grundlegende Einschränkung von LLM-Embeddings liegt jedoch in der unidirektionalen Aufmerksamkeit, die während des autoregressiven Pre-Trainings verwendet wird, was sich nicht mit der bidirektionalen Natur von Text-Embedding-Aufgaben deckt. Aus diesem Grund schlagen wir die Verwendung von Diffusions-Sprachmodellen für Text-Embeddings vor, motiviert durch ihre inhärente bidirektionale Architektur und ihren jüngsten Erfolg, LLMs insbesondere bei Aufgaben, die logisches Denken erfordern, zu erreichen oder zu übertreffen. Wir präsentieren die erste systematische Studie des Diffusions-Sprach-Embedding-Modells, das das LLM-basierte Embedding-Modell bei der Langdokumentenrecherche um 20 %, bei der logikintensiven Recherche um 8 % und bei der befehlsfolgenden Recherche um 2 % übertrifft und auf traditionellen Text-Embedding-Benchmarks wettbewerbsfähige Leistungen erzielt. Unsere Analyse bestätigt, dass bidirektionale Aufmerksamkeit entscheidend für die Kodierung des globalen Kontexts in langen und komplexen Texten ist.

English

Large language model (LLM)-based embedding models, benefiting from large scale pre-training and post-training, have begun to surpass BERT and T5-based models on general-purpose text embedding tasks such as document retrieval. However, a fundamental limitation of LLM embeddings lies in the unidirectional attention used during autoregressive pre-training, which misaligns with the bidirectional nature of text embedding tasks. To this end, We propose adopting diffusion language models for text embeddings, motivated by their inherent bidirectional architecture and recent success in matching or surpassing LLMs especially on reasoning tasks. We present the first systematic study of the diffusion language embedding model, which outperforms the LLM-based embedding model by 20% on long-document retrieval, 8% on reasoning-intensive retrieval, 2% on instruction-following retrieval, and achieve competitive performance on traditional text embedding benchmarks. Our analysis verifies that bidirectional attention is crucial for encoding global context in long and complex text.

Diffusion vs. autoregressive Sprachmodelle: Eine Perspektive auf Text-Embeddings

Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective

papers.abstract

Support