ChatPaper.aiChatPaper

Diffusione vs. Modelli Linguistici Autoregressivi: Una Prospettiva sugli Embedding Testuali

Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective

May 21, 2025
Autori: Siyue Zhang, Yilun Zhao, Liyuan Geng, Arman Cohan, Anh Tuan Luu, Chen Zhao
cs.AI

Abstract

I modelli di embedding basati su Large Language Model (LLM), beneficiando di un pre-training e post-training su larga scala, hanno iniziato a superare i modelli basati su BERT e T5 in compiti di embedding testuale generico come il recupero di documenti. Tuttavia, una limitazione fondamentale degli embedding LLM risiede nell'attenzione unidirezionale utilizzata durante il pre-training autoregressivo, che non si allinea con la natura bidirezionale dei compiti di embedding testuale. A tal fine, proponiamo di adottare modelli linguistici di diffusione per gli embedding testuali, motivati dalla loro architettura intrinsecamente bidirezionale e dai recenti successi nel pareggiare o superare gli LLM, specialmente in compiti di ragionamento. Presentiamo il primo studio sistematico del modello di embedding linguistico basato sulla diffusione, che supera il modello di embedding basato su LLM del 20% nel recupero di documenti lunghi, dell'8% nel recupero ad alta intensità di ragionamento, del 2% nel recupero che segue istruzioni, e raggiunge prestazioni competitive nei benchmark tradizionali di embedding testuale. La nostra analisi verifica che l'attenzione bidirezionale è cruciale per codificare il contesto globale in testi lunghi e complessi.
English
Large language model (LLM)-based embedding models, benefiting from large scale pre-training and post-training, have begun to surpass BERT and T5-based models on general-purpose text embedding tasks such as document retrieval. However, a fundamental limitation of LLM embeddings lies in the unidirectional attention used during autoregressive pre-training, which misaligns with the bidirectional nature of text embedding tasks. To this end, We propose adopting diffusion language models for text embeddings, motivated by their inherent bidirectional architecture and recent success in matching or surpassing LLMs especially on reasoning tasks. We present the first systematic study of the diffusion language embedding model, which outperforms the LLM-based embedding model by 20% on long-document retrieval, 8% on reasoning-intensive retrieval, 2% on instruction-following retrieval, and achieve competitive performance on traditional text embedding benchmarks. Our analysis verifies that bidirectional attention is crucial for encoding global context in long and complex text.
PDF552May 22, 2025