Xetrieval: Mechanistische Erklärung von Dense Retrieval

Zusammenfassung

Die Erklärung, warum dichte Retriever hohe Relevanzwerte vergeben, bleibt eine Herausforderung, da Retrieval-Entscheidungen durch undurchsichtige hochdimensionale Einbettungen getroffen werden. Bestehende Erklärungen konzentrieren sich oft auf Oberflächensignale wie lexikalische Übereinstimmungen, Token-Ausrichtungen oder nachträgliche textuelle Begründungen und bieten daher nur begrenzte Einblicke in die latenten Faktoren, die das Verhalten dichter Retriever auf Einbettungsebene prägen. Wir schlagen Xetrieval vor, einen mechanistischen Rahmen auf Einbettungsebene zur Erklärung dichter Retriever. Xetrieval führt zunächst einen leichtgewichtigen Reasoning-Internalisierer ein, der Chain-of-Thought-Reasoning direkt im Einbettungsraum mit einem einzigen Vorwärtsdurchlauf approximiert, wodurch Satzeinbettungen mit reasoning-orientierten Informationen angereichert werden, während aufwändige autoregressive Generierung vermieden wird. Anschließend zerlegt es diese reasoning-verstärkten Einbettungen in spärliche, menschlich interpretierbare Merkmale, die jeweils mit einer kohärenten natürlichsprachlichen Beschreibung assoziiert sind. Durch die Aggregation spärlicher Merkmalsüberschneidungen über mehrere dokumentseitige Perspektiven hinweg liefert Xetrieval merkmalsebenenbezogene Erklärungen einzelner Retrieval-Entscheidungen. Experimente mit verschiedenen Retrievern und Benchmarks zeigen, dass Xetrieval kohärente interpretierbare Merkmale aufdeckt, stärkere paarweise Interventionseffekte erzielt und eine merkmalsebenenbezogene Steuerung von Aufgaben unterstützt. Die Projektseite und der Quellcode sind verfügbar unter https://hihiczx.github.io/Xetrieval.

English

Explaining why dense retrievers assign high relevance scores remains challenging because retrieval decisions are made through opaque high-dimensional embeddings. Existing explanations often focus on surface signals, such as lexical matches, token alignments, or post-hoc textual rationales, and thus provide limited insight into the latent factors that shape dense retrieval behavior at the embedding level. We propose Xetrieval, an embedding-level mechanistic framework for explaining dense retrieval. Xetrieval first introduces a lightweight reasoning internalizer that approximates Chain-of-Thought reasoning directly in the embedding space with a single forward pass, enriching sentence embeddings with reasoning-oriented information while avoiding expensive autoregressive generation. It then decomposes these reasoning-enhanced embeddings into sparse, human-interpretable features, each associated with a coherent natural language description. By aggregating sparse feature overlaps across multiple document-side views, Xetrieval provides feature-level explanations of individual retrieval decisions. Experiments on diverse retrievers and benchmarks show that Xetrieval uncovers coherent interpretable features, yields stronger pair-level intervention effects, and supports task-level feature steering. The project page and source code are available at https://hihiczx.github.io/Xetrieval .