DREAM: Dichte Retrieval Embeddings via Autoregressieve Modellering

Samenvatting

Dense retrieval-embeddingmodellen zijn een fundamenteel onderdeel van moderne op retrieval gebaseerde AI-systemen. De meeste dense retrievers worden getraind met contrastieve doelstellingen, waarvoor gelabelde positieve en negatieve documentparen nodig zijn die vaak kostbaar en moeilijk te verkrijgen zijn. In dit werk onderzoeken we of de autoregressieve next-token voorspellingsdoelstelling van een groot taalmodel (LLM) supervisie kan bieden voor dense retrieval. De intuïtie is eenvoudig: als een document informatie bevat die relevant is voor een query, zou conditionering op dat document de doeluitvoer gemakkelijker moeten maken voor het LLM om te voorspellen. Een belangrijke uitdaging is dat het next-token voorspellingsverlies binnen het LLM wordt berekend, terwijl de retriever een apart embeddingmodel is. Om deze uitdaging aan te pakken, stellen we DREAM (Dense Retrieval Embeddings via Autoregressive Modeling) voor, dat door de retriever gegenereerde query-document overeenkomstscores injecteert in geselecteerde aandachtskoppen van een bevroren LLM. Tijdens de training bepalen deze scores hoeveel aandacht elk kandidaatdocument krijgt terwijl het LLM de doeluitvoer voorspelt. Het resulterende voorspellingsverlies levert gradiënten voor retrievertraining via het aandachtsmechanisme. We evalueren DREAM op retrieval-benchmarks BEIR en RTEB met behulp van embedding-backbones variërend van 0,5B tot 3B parameters. DREAM presteert consistent beter dan bestaande basislijnen over verschillende modelschalen. Deze resultaten tonen aan dat DREAM een veelbelovende aanpak biedt voor het trainen van dense retrievers via autoregressieve modellering.

English

Dense retrieval embedding models are a fundamental component of modern retrieval-based AI systems. Most dense retrievers are trained with contrastive objectives, which require labeled positive and negative document pairs that are often costly and difficult to obtain. In this work, we investigate whether the autoregressive next-token prediction objective of a large language model (LLM) can provide supervision for dense retrieval. The intuition is simple: if a document contains information relevant to a query, conditioning on that document should make the target output easier for the LLM to predict. A key challenge is that the next-token prediction loss is computed inside the LLM, while the retriever is a separate embedding model. To address this challenge, we propose DREAM (Dense Retrieval Embeddings via Autoregressive Modeling), which injects retriever-generated query-document similarity scores into selected attention heads of a frozen LLM. During training, these scores determine how much attention each candidate document receives while the LLM predicts the target output. The resulting prediction loss provides gradients for retriever training through the attention mechanism. We evaluate DREAM on retrieval benchmarks BEIR and RTEB using embedding backbones ranging from 0.5B to 3B parameters. DREAM consistently outperforms existing baselines across different model scales. These results demonstrate that DREAM provides a promising approach for training dense retrievers through autoregressive modeling.