Xetrieval: Explicación mecanicista de la recuperación densa

Resumen

Explicar por qué los recuperadores densos asignan puntuaciones de relevancia altas sigue siendo un desafío, ya que las decisiones de recuperación se toman a través de incrustaciones opacas de alta dimensionalidad. Las explicaciones existentes a menudo se centran en señales superficiales, como coincidencias léxicas, alineaciones de tokens o justificaciones textuales a posteriori, y por lo tanto ofrecen una visión limitada de los factores latentes que moldean el comportamiento de la recuperación densa a nivel de incrustación. Proponemos Xetrieval, un marco mecanicista a nivel de incrustación para explicar la recuperación densa. Xetrieval primero introduce un internalizador de razonamiento ligero que aproxima el razonamiento de Cadena de Pensamiento directamente en el espacio de incrustación con un solo paso hacia adelante, enriqueciendo las incrustaciones de oraciones con información orientada al razonamiento, al tiempo que evita la costosa generación autorregresiva. Luego descompone estas incrustaciones enriquecidas con razonamiento en características dispersas e interpretables por humanos, cada una asociada con una descripción coherente en lenguaje natural. Al agregar superposiciones de características dispersas en múltiples vistas del lado del documento, Xetrieval proporciona explicaciones a nivel de características de decisiones de recuperación individuales. Experimentos en diversos recuperadores y puntos de referencia muestran que Xetrieval descubre características interpretables coherentes, produce efectos de intervención a nivel de par más fuertes y apoya la dirección de características a nivel de tarea. La página del proyecto y el código fuente están disponibles en https://hihiczx.github.io/Xetrieval.

English

Explaining why dense retrievers assign high relevance scores remains challenging because retrieval decisions are made through opaque high-dimensional embeddings. Existing explanations often focus on surface signals, such as lexical matches, token alignments, or post-hoc textual rationales, and thus provide limited insight into the latent factors that shape dense retrieval behavior at the embedding level. We propose Xetrieval, an embedding-level mechanistic framework for explaining dense retrieval. Xetrieval first introduces a lightweight reasoning internalizer that approximates Chain-of-Thought reasoning directly in the embedding space with a single forward pass, enriching sentence embeddings with reasoning-oriented information while avoiding expensive autoregressive generation. It then decomposes these reasoning-enhanced embeddings into sparse, human-interpretable features, each associated with a coherent natural language description. By aggregating sparse feature overlaps across multiple document-side views, Xetrieval provides feature-level explanations of individual retrieval decisions. Experiments on diverse retrievers and benchmarks show that Xetrieval uncovers coherent interpretable features, yields stronger pair-level intervention effects, and supports task-level feature steering. The project page and source code are available at https://hihiczx.github.io/Xetrieval .