ChatPaper.aiChatPaper

Диффузионные и авторегрессивные языковые модели: перспектива текстовых эмбеддингов

Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective

May 21, 2025
Авторы: Siyue Zhang, Yilun Zhao, Liyuan Geng, Arman Cohan, Anh Tuan Luu, Chen Zhao
cs.AI

Аннотация

Модели векторного представления текста на основе больших языковых моделей (LLM), использующие преимущества масштабного предварительного и последующего обучения, начали превосходить модели на основе BERT и T5 в задачах общего назначения, таких как поиск документов. Однако фундаментальное ограничение векторных представлений LLM заключается в использовании однонаправленного внимания во время авторегрессивного предварительного обучения, что не соответствует двунаправленной природе задач векторного представления текста. В связи с этим мы предлагаем использовать диффузионные языковые модели для векторного представления текста, мотивируя это их изначально двунаправленной архитектурой и недавними успехами в сопоставлении или превосходстве над LLM, особенно в задачах, требующих рассуждений. Мы представляем первое систематическое исследование диффузионной модели векторного представления текста, которая превосходит модель на основе LLM на 20% в поиске длинных документов, на 8% в поиске, требующем интенсивных рассуждений, на 2% в поиске, ориентированном на выполнение инструкций, и демонстрирует конкурентоспособные результаты на традиционных тестах векторного представления текста. Наш анализ подтверждает, что двунаправленное внимание играет ключевую роль в кодировании глобального контекста в длинных и сложных текстах.
English
Large language model (LLM)-based embedding models, benefiting from large scale pre-training and post-training, have begun to surpass BERT and T5-based models on general-purpose text embedding tasks such as document retrieval. However, a fundamental limitation of LLM embeddings lies in the unidirectional attention used during autoregressive pre-training, which misaligns with the bidirectional nature of text embedding tasks. To this end, We propose adopting diffusion language models for text embeddings, motivated by their inherent bidirectional architecture and recent success in matching or surpassing LLMs especially on reasoning tasks. We present the first systematic study of the diffusion language embedding model, which outperforms the LLM-based embedding model by 20% on long-document retrieval, 8% on reasoning-intensive retrieval, 2% on instruction-following retrieval, and achieve competitive performance on traditional text embedding benchmarks. Our analysis verifies that bidirectional attention is crucial for encoding global context in long and complex text.

Summary

AI-Generated Summary

PDF452May 22, 2025