Difusión frente a Modelos de Lenguaje Autoregresivos: Una Perspectiva desde los Embeddings de Texto

Resumen

Los modelos de incrustación basados en grandes modelos de lenguaje (LLM), que se benefician del preentrenamiento y postentrenamiento a gran escala, han comenzado a superar a los modelos basados en BERT y T5 en tareas generales de incrustación de texto, como la recuperación de documentos. Sin embargo, una limitación fundamental de las incrustaciones de LLM radica en la atención unidireccional utilizada durante el preentrenamiento autoregresivo, lo cual no se alinea con la naturaleza bidireccional de las tareas de incrustación de texto. Con este fin, proponemos adoptar modelos de lenguaje de difusión para incrustaciones de texto, motivados por su arquitectura bidireccional inherente y su reciente éxito en igualar o superar a los LLM, especialmente en tareas de razonamiento. Presentamos el primer estudio sistemático del modelo de incrustación de lenguaje de difusión, que supera al modelo de incrustación basado en LLM en un 20% en la recuperación de documentos largos, un 8% en la recuperación intensiva en razonamiento, un 2% en la recuperación que sigue instrucciones, y logra un rendimiento competitivo en los puntos de referencia tradicionales de incrustación de texto. Nuestro análisis verifica que la atención bidireccional es crucial para codificar el contexto global en textos largos y complejos.

English

Large language model (LLM)-based embedding models, benefiting from large scale pre-training and post-training, have begun to surpass BERT and T5-based models on general-purpose text embedding tasks such as document retrieval. However, a fundamental limitation of LLM embeddings lies in the unidirectional attention used during autoregressive pre-training, which misaligns with the bidirectional nature of text embedding tasks. To this end, We propose adopting diffusion language models for text embeddings, motivated by their inherent bidirectional architecture and recent success in matching or surpassing LLMs especially on reasoning tasks. We present the first systematic study of the diffusion language embedding model, which outperforms the LLM-based embedding model by 20% on long-document retrieval, 8% on reasoning-intensive retrieval, 2% on instruction-following retrieval, and achieve competitive performance on traditional text embedding benchmarks. Our analysis verifies that bidirectional attention is crucial for encoding global context in long and complex text.

Difusión frente a Modelos de Lenguaje Autoregresivos: Una Perspectiva desde los Embeddings de Texto

Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective

Resumen

Support