Diffusion vs. autoregressive Sprachmodelle: Eine Perspektive auf Text-Embeddings
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective
May 21, 2025
Autoren: Siyue Zhang, Yilun Zhao, Liyuan Geng, Arman Cohan, Anh Tuan Luu, Chen Zhao
cs.AI
Zusammenfassung
Große Sprachmodelle (LLM)-basierte Embedding-Modelle, die von umfangreichem Pre-Training und Post-Training profitieren, haben begonnen, BERT- und T5-basierte Modelle bei allgemeinen Text-Embedding-Aufgaben wie der Dokumentenrecherche zu übertreffen. Eine grundlegende Einschränkung von LLM-Embeddings liegt jedoch in der unidirektionalen Aufmerksamkeit, die während des autoregressiven Pre-Trainings verwendet wird, was sich nicht mit der bidirektionalen Natur von Text-Embedding-Aufgaben deckt. Aus diesem Grund schlagen wir die Verwendung von Diffusions-Sprachmodellen für Text-Embeddings vor, motiviert durch ihre inhärente bidirektionale Architektur und ihren jüngsten Erfolg, LLMs insbesondere bei Aufgaben, die logisches Denken erfordern, zu erreichen oder zu übertreffen. Wir präsentieren die erste systematische Studie des Diffusions-Sprach-Embedding-Modells, das das LLM-basierte Embedding-Modell bei der Langdokumentenrecherche um 20 %, bei der logikintensiven Recherche um 8 % und bei der befehlsfolgenden Recherche um 2 % übertrifft und auf traditionellen Text-Embedding-Benchmarks wettbewerbsfähige Leistungen erzielt. Unsere Analyse bestätigt, dass bidirektionale Aufmerksamkeit entscheidend für die Kodierung des globalen Kontexts in langen und komplexen Texten ist.
English
Large language model (LLM)-based embedding models, benefiting from large
scale pre-training and post-training, have begun to surpass BERT and T5-based
models on general-purpose text embedding tasks such as document retrieval.
However, a fundamental limitation of LLM embeddings lies in the unidirectional
attention used during autoregressive pre-training, which misaligns with the
bidirectional nature of text embedding tasks. To this end, We propose adopting
diffusion language models for text embeddings, motivated by their inherent
bidirectional architecture and recent success in matching or surpassing LLMs
especially on reasoning tasks. We present the first systematic study of the
diffusion language embedding model, which outperforms the LLM-based embedding
model by 20% on long-document retrieval, 8% on reasoning-intensive retrieval,
2% on instruction-following retrieval, and achieve competitive performance on
traditional text embedding benchmarks. Our analysis verifies that bidirectional
attention is crucial for encoding global context in long and complex text.Summary
AI-Generated Summary