Xetrieval: Mechanistische verklaring van dense retrieval

Samenvatting

Uitleggen waarom dense retrievers hoge relevantiescores toekennen blijft uitdagend, omdat ophaalbeslissingen worden genomen via ondoorzichtige hoogdimensionale embeddings. Bestaande verklaringen richten zich vaak op oppervlakkige signalen, zoals lexicale overeenkomsten, token-uitlijningen of post-hoc tekstuele verantwoordingen, en bieden daardoor beperkt inzicht in de latente factoren die het gedrag van dense retrieval op embedddingniveau vormgeven. Wij stellen Xetrieval voor, een mechanistisch raamwerk op embedddingniveau voor het verklaren van dense retrieval. Xetrieval introduceert eerst een lichtgewicht redeneer-internalizer die Chain-of-Thought-redenering direct in de embedddingruimte benadert met een enkele voorwaartse doorgang, waarbij zinsembeddings worden verrijkt met redeneergerichte informatie terwijl dure autoregressieve generatie wordt vermeden. Vervolgens ontleedt het deze met redenering verrijkte embeddings in schaarse, door mensen interpreteerbare kenmerken, elk geassocieerd met een coherente natuurlijke taal beschrijving. Door schaarse kenmerkoverlappingen over meerdere documentzijdeweergaven te aggregeren, biedt Xetrieval kenmerkniveau-verklaringen van individuele ophaalbeslissingen. Experimenten met diverse retrievers en benchmarks tonen aan dat Xetrieval coherente interpreteerbare kenmerken blootlegt, sterkere paarinterventie-effecten oplevert en taakniveau-kenmerksturing ondersteunt. De projectpagina en broncode zijn beschikbaar op https://hihiczx.github.io/Xetrieval.

English

Explaining why dense retrievers assign high relevance scores remains challenging because retrieval decisions are made through opaque high-dimensional embeddings. Existing explanations often focus on surface signals, such as lexical matches, token alignments, or post-hoc textual rationales, and thus provide limited insight into the latent factors that shape dense retrieval behavior at the embedding level. We propose Xetrieval, an embedding-level mechanistic framework for explaining dense retrieval. Xetrieval first introduces a lightweight reasoning internalizer that approximates Chain-of-Thought reasoning directly in the embedding space with a single forward pass, enriching sentence embeddings with reasoning-oriented information while avoiding expensive autoregressive generation. It then decomposes these reasoning-enhanced embeddings into sparse, human-interpretable features, each associated with a coherent natural language description. By aggregating sparse feature overlaps across multiple document-side views, Xetrieval provides feature-level explanations of individual retrieval decisions. Experiments on diverse retrievers and benchmarks show that Xetrieval uncovers coherent interpretable features, yields stronger pair-level intervention effects, and supports task-level feature steering. The project page and source code are available at https://hihiczx.github.io/Xetrieval .