Difusão vs. Modelos de Linguagem Autoregressivos: Uma Perspectiva de Incorporação de Texto
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective
May 21, 2025
Autores: Siyue Zhang, Yilun Zhao, Liyuan Geng, Arman Cohan, Anh Tuan Luu, Chen Zhao
cs.AI
Resumo
Modelos de incorporação de texto baseados em grandes modelos de linguagem (LLMs), beneficiando-se de pré-treinamento e pós-treinamento em larga escala, começaram a superar modelos baseados em BERT e T5 em tarefas gerais de incorporação de texto, como recuperação de documentos. No entanto, uma limitação fundamental das incorporações de LLMs reside na atenção unidirecional utilizada durante o pré-treinamento autoregressivo, que não está alinhada com a natureza bidirecional das tarefas de incorporação de texto. Para isso, propomos a adoção de modelos de linguagem de difusão para incorporações de texto, motivados por sua arquitetura bidirecional inerente e sucesso recente em igualar ou superar LLMs, especialmente em tarefas de raciocínio. Apresentamos o primeiro estudo sistemático do modelo de incorporação de linguagem de difusão, que supera o modelo de incorporação baseado em LLM em 20% na recuperação de documentos longos, 8% na recuperação intensiva em raciocínio, 2% na recuperação de seguimento de instruções e alcança desempenho competitivo em benchmarks tradicionais de incorporação de texto. Nossa análise verifica que a atenção bidirecional é crucial para codificar o contexto global em textos longos e complexos.
English
Large language model (LLM)-based embedding models, benefiting from large
scale pre-training and post-training, have begun to surpass BERT and T5-based
models on general-purpose text embedding tasks such as document retrieval.
However, a fundamental limitation of LLM embeddings lies in the unidirectional
attention used during autoregressive pre-training, which misaligns with the
bidirectional nature of text embedding tasks. To this end, We propose adopting
diffusion language models for text embeddings, motivated by their inherent
bidirectional architecture and recent success in matching or surpassing LLMs
especially on reasoning tasks. We present the first systematic study of the
diffusion language embedding model, which outperforms the LLM-based embedding
model by 20% on long-document retrieval, 8% on reasoning-intensive retrieval,
2% on instruction-following retrieval, and achieve competitive performance on
traditional text embedding benchmarks. Our analysis verifies that bidirectional
attention is crucial for encoding global context in long and complex text.