Difusión frente a Modelos de Lenguaje Autoregresivos: Una Perspectiva desde los Embeddings de Texto
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective
May 21, 2025
Autores: Siyue Zhang, Yilun Zhao, Liyuan Geng, Arman Cohan, Anh Tuan Luu, Chen Zhao
cs.AI
Resumen
Los modelos de incrustación basados en grandes modelos de lenguaje (LLM), que se benefician del preentrenamiento y postentrenamiento a gran escala, han comenzado a superar a los modelos basados en BERT y T5 en tareas generales de incrustación de texto, como la recuperación de documentos. Sin embargo, una limitación fundamental de las incrustaciones de LLM radica en la atención unidireccional utilizada durante el preentrenamiento autoregresivo, lo cual no se alinea con la naturaleza bidireccional de las tareas de incrustación de texto. Con este fin, proponemos adoptar modelos de lenguaje de difusión para incrustaciones de texto, motivados por su arquitectura bidireccional inherente y su reciente éxito en igualar o superar a los LLM, especialmente en tareas de razonamiento. Presentamos el primer estudio sistemático del modelo de incrustación de lenguaje de difusión, que supera al modelo de incrustación basado en LLM en un 20% en la recuperación de documentos largos, un 8% en la recuperación intensiva en razonamiento, un 2% en la recuperación que sigue instrucciones, y logra un rendimiento competitivo en los puntos de referencia tradicionales de incrustación de texto. Nuestro análisis verifica que la atención bidireccional es crucial para codificar el contexto global en textos largos y complejos.
English
Large language model (LLM)-based embedding models, benefiting from large
scale pre-training and post-training, have begun to surpass BERT and T5-based
models on general-purpose text embedding tasks such as document retrieval.
However, a fundamental limitation of LLM embeddings lies in the unidirectional
attention used during autoregressive pre-training, which misaligns with the
bidirectional nature of text embedding tasks. To this end, We propose adopting
diffusion language models for text embeddings, motivated by their inherent
bidirectional architecture and recent success in matching or surpassing LLMs
especially on reasoning tasks. We present the first systematic study of the
diffusion language embedding model, which outperforms the LLM-based embedding
model by 20% on long-document retrieval, 8% on reasoning-intensive retrieval,
2% on instruction-following retrieval, and achieve competitive performance on
traditional text embedding benchmarks. Our analysis verifies that bidirectional
attention is crucial for encoding global context in long and complex text.Summary
AI-Generated Summary