ChatPaper.aiChatPaper

Xetrieval: Explicando Mecanicamente a Recuperação Densa

Xetrieval: Mechanistically Explaining Dense Retrieval

May 28, 2026
Autores: Zhixin Cai, Jun Bai, Yang Liu, Jiaqi Li, Yichi Zhang, Taichuan Li, Zhuofan Chen, Zixia Jia, Zilong Zheng, Wenge Rong
cs.AI

Resumo

Explicar por que recuperadores densos atribuem altas pontuações de relevância continua sendo desafiador, pois as decisões de recuperação são tomadas por meio de embeddings de alta dimensionalidade e opacos. Explicações existentes frequentemente focam em sinais superficiais, como correspondências lexicais, alinhamentos de tokens ou justificativas textuais post-hoc, oferecendo assim um entendimento limitado sobre os fatores latentes que moldam o comportamento da recuperação densa no nível dos embeddings. Propomos o Xetrieval, uma estrutura mecanicista no nível de embeddings para explicar a recuperação densa. O Xetrieval introduz primeiro um internalizador de raciocínio leve que aproxima o raciocínio de Cadeia de Pensamento diretamente no espaço de embeddings com uma única passagem forward, enriquecendo os embeddings de sentenças com informações orientadas ao raciocínio, evitando ao mesmo tempo a geração autoregressiva custosa. Em seguida, ele decompõe esses embeddings enriquecidos com raciocínio em características esparsas e interpretáveis por humanos, cada uma associada a uma descrição coerente em linguagem natural. Ao agregar sobreposições de características esparsas em múltiplas visões do lado do documento, o Xetrieval fornece explicações no nível das características para decisões individuais de recuperação. Experimentos em diversos recuperadores e benchmarks mostram que o Xetrieval revela características interpretáveis e coerentes, produz efeitos de intervenção mais fortes no nível de pares e suporta a orientação de características no nível de tarefa. A página do projeto e o código-fonte estão disponíveis em https://hihiczx.github.io/Xetrieval.
English
Explaining why dense retrievers assign high relevance scores remains challenging because retrieval decisions are made through opaque high-dimensional embeddings. Existing explanations often focus on surface signals, such as lexical matches, token alignments, or post-hoc textual rationales, and thus provide limited insight into the latent factors that shape dense retrieval behavior at the embedding level. We propose Xetrieval, an embedding-level mechanistic framework for explaining dense retrieval. Xetrieval first introduces a lightweight reasoning internalizer that approximates Chain-of-Thought reasoning directly in the embedding space with a single forward pass, enriching sentence embeddings with reasoning-oriented information while avoiding expensive autoregressive generation. It then decomposes these reasoning-enhanced embeddings into sparse, human-interpretable features, each associated with a coherent natural language description. By aggregating sparse feature overlaps across multiple document-side views, Xetrieval provides feature-level explanations of individual retrieval decisions. Experiments on diverse retrievers and benchmarks show that Xetrieval uncovers coherent interpretable features, yields stronger pair-level intervention effects, and supports task-level feature steering. The project page and source code are available at https://hihiczx.github.io/Xetrieval .