Diffusion vs. Modèles de Langage Autoregressifs : Une Perspective sur les Embeddings de Texte
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective
May 21, 2025
Auteurs: Siyue Zhang, Yilun Zhao, Liyuan Geng, Arman Cohan, Anh Tuan Luu, Chen Zhao
cs.AI
Résumé
Les modèles d'incorporation basés sur les grands modèles de langage (LLM), bénéficiant d'un pré-entraînement et d'un post-entraînement à grande échelle, commencent à surpasser les modèles basés sur BERT et T5 dans des tâches générales d'incorporation de texte telles que la recherche de documents. Cependant, une limitation fondamentale des incorporations LLM réside dans l'attention unidirectionnelle utilisée lors du pré-entraînement autorégressif, qui ne correspond pas à la nature bidirectionnelle des tâches d'incorporation de texte. Pour remédier à cela, nous proposons d'adopter des modèles de langage par diffusion pour les incorporations de texte, motivés par leur architecture bidirectionnelle inhérente et leurs récents succès à égaler ou surpasser les LLM, en particulier dans les tâches de raisonnement. Nous présentons la première étude systématique du modèle d'incorporation de langage par diffusion, qui surpasse le modèle d'incorporation basé sur LLM de 20 % dans la recherche de documents longs, de 8 % dans la recherche intensive en raisonnement, de 2 % dans la recherche suivant des instructions, et obtient des performances compétitives sur les benchmarks traditionnels d'incorporation de texte. Notre analyse confirme que l'attention bidirectionnelle est cruciale pour encoder le contexte global dans des textes longs et complexes.
English
Large language model (LLM)-based embedding models, benefiting from large
scale pre-training and post-training, have begun to surpass BERT and T5-based
models on general-purpose text embedding tasks such as document retrieval.
However, a fundamental limitation of LLM embeddings lies in the unidirectional
attention used during autoregressive pre-training, which misaligns with the
bidirectional nature of text embedding tasks. To this end, We propose adopting
diffusion language models for text embeddings, motivated by their inherent
bidirectional architecture and recent success in matching or surpassing LLMs
especially on reasoning tasks. We present the first systematic study of the
diffusion language embedding model, which outperforms the LLM-based embedding
model by 20% on long-document retrieval, 8% on reasoning-intensive retrieval,
2% on instruction-following retrieval, and achieve competitive performance on
traditional text embedding benchmarks. Our analysis verifies that bidirectional
attention is crucial for encoding global context in long and complex text.Summary
AI-Generated Summary