Diffusie versus Autoregressieve Taalmodellen: Een Text Embedding Perspectief
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective
May 21, 2025
Auteurs: Siyue Zhang, Yilun Zhao, Liyuan Geng, Arman Cohan, Anh Tuan Luu, Chen Zhao
cs.AI
Samenvatting
Grootschalige taalmodel (LLM)-gebaseerde inbeddingsmodellen, die profiteren van grootschalige voorafgaande training en nabehandeling, zijn begonnen BERT- en T5-gebaseerde modellen te overtreffen op algemene tekstinbeddingstaken zoals documentretrieval. Een fundamentele beperking van LLM-inbeddingen ligt echter in de unidirectionele aandacht die wordt gebruikt tijdens autoregressieve voorafgaande training, wat niet overeenkomt met de bidirectionele aard van tekstinbeddingstaken. Daarom stellen we voor om diffusietaalmodellen te gebruiken voor tekstinbeddingen, gemotiveerd door hun inherente bidirectionele architectuur en recente succes in het evenaren of overtreffen van LLM's, vooral op redeneertaken. We presenteren de eerste systematische studie van het diffusietaal-inbeddingsmodel, dat het LLM-gebaseerde inbeddingsmodel overtreft met 20% op lange-documentretrieval, 8% op redeneerintensieve retrieval, 2% op instructievolgende retrieval, en competitieve prestaties behaalt op traditionele tekstinbeddingsbenchmarks. Onze analyse bevestigt dat bidirectionele aandacht cruciaal is voor het coderen van globale context in lange en complexe teksten.
English
Large language model (LLM)-based embedding models, benefiting from large
scale pre-training and post-training, have begun to surpass BERT and T5-based
models on general-purpose text embedding tasks such as document retrieval.
However, a fundamental limitation of LLM embeddings lies in the unidirectional
attention used during autoregressive pre-training, which misaligns with the
bidirectional nature of text embedding tasks. To this end, We propose adopting
diffusion language models for text embeddings, motivated by their inherent
bidirectional architecture and recent success in matching or surpassing LLMs
especially on reasoning tasks. We present the first systematic study of the
diffusion language embedding model, which outperforms the LLM-based embedding
model by 20% on long-document retrieval, 8% on reasoning-intensive retrieval,
2% on instruction-following retrieval, and achieve competitive performance on
traditional text embedding benchmarks. Our analysis verifies that bidirectional
attention is crucial for encoding global context in long and complex text.