拡散モデル vs 自己回帰型言語モデル:テキスト埋め込みの観点から
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective
May 21, 2025
著者: Siyue Zhang, Yilun Zhao, Liyuan Geng, Arman Cohan, Anh Tuan Luu, Chen Zhao
cs.AI
要旨
大規模言語モデル(LLM)ベースの埋め込みモデルは、大規模な事前学習と事後学習の恩恵を受け、文書検索などの汎用テキスト埋め込みタスクにおいてBERTやT5ベースのモデルを凌駕し始めています。しかし、LLM埋め込みの根本的な制約は、自己回帰型事前学習中に使用される単方向のアテンションにあり、これはテキスト埋め込みタスクの双方向性と整合しません。この問題に対処するため、我々は拡散言語モデルをテキスト埋め込みに採用することを提案します。これは、その本質的な双方向アーキテクチャと、特に推論タスクにおいてLLMを匹敵または凌駕する最近の成功に動機づけられています。我々は、拡散言語埋め込みモデルに関する最初の体系的な研究を提示し、長文書検索においてLLMベースの埋め込みモデルを20%、推論集約型検索において8%、指示追従型検索において2%上回り、従来のテキスト埋め込みベンチマークにおいても競争力のある性能を達成しました。我々の分析は、長く複雑なテキストにおけるグローバルなコンテキストのエンコードにおいて、双方向アテンションが重要であることを検証しています。
English
Large language model (LLM)-based embedding models, benefiting from large
scale pre-training and post-training, have begun to surpass BERT and T5-based
models on general-purpose text embedding tasks such as document retrieval.
However, a fundamental limitation of LLM embeddings lies in the unidirectional
attention used during autoregressive pre-training, which misaligns with the
bidirectional nature of text embedding tasks. To this end, We propose adopting
diffusion language models for text embeddings, motivated by their inherent
bidirectional architecture and recent success in matching or surpassing LLMs
especially on reasoning tasks. We present the first systematic study of the
diffusion language embedding model, which outperforms the LLM-based embedding
model by 20% on long-document retrieval, 8% on reasoning-intensive retrieval,
2% on instruction-following retrieval, and achieve competitive performance on
traditional text embedding benchmarks. Our analysis verifies that bidirectional
attention is crucial for encoding global context in long and complex text.Summary
AI-Generated Summary