Xetrieval: механистическое объяснение плотного поиска

Аннотация

Объяснение того, почему плотные ретриверы присваивают высокие оценки релевантности, остается сложной задачей, поскольку решения о поиске принимаются через непрозрачные многомерные эмбеддинги. Существующие объяснения часто сосредоточены на поверхностных сигналах, таких как лексические совпадения, выравнивание токенов или пост-хок текстовые обоснования, и поэтому дают ограниченное понимание латентных факторов, формирующих поведение плотного поиска на уровне эмбеддингов. Мы предлагаем Xetrieval — механистический фреймворк на уровне эмбеддингов для объяснения плотного поиска. Xetrieval сначала вводит легковесный интернализатор рассуждений, который аппроксимирует цепь рассуждений непосредственно в пространстве эмбеддингов за один прямой проход, обогащая эмбеддинги предложений информацией, ориентированной на рассуждения, и избегая дорогостоящей авторегрессивной генерации. Затем он разлагает эти эмбеддинги, обогащенные рассуждениями, на разреженные, интерпретируемые человеком признаки, каждый из которых связан со связным описанием на естественном языке. Агрегируя перекрытия разреженных признаков по множеству представлений со стороны документа, Xetrieval предоставляет объяснения отдельных решений о поиске на уровне признаков. Эксперименты на разнообразных ретриверах и эталонах показывают, что Xetrieval выявляет связные интерпретируемые признаки, дает более сильные эффекты вмешательства на уровне пар и поддерживает управление признаками на уровне задач. Страница проекта и исходный код доступны по адресу https://hihiczx.github.io/Xetrieval.

English

Explaining why dense retrievers assign high relevance scores remains challenging because retrieval decisions are made through opaque high-dimensional embeddings. Existing explanations often focus on surface signals, such as lexical matches, token alignments, or post-hoc textual rationales, and thus provide limited insight into the latent factors that shape dense retrieval behavior at the embedding level. We propose Xetrieval, an embedding-level mechanistic framework for explaining dense retrieval. Xetrieval first introduces a lightweight reasoning internalizer that approximates Chain-of-Thought reasoning directly in the embedding space with a single forward pass, enriching sentence embeddings with reasoning-oriented information while avoiding expensive autoregressive generation. It then decomposes these reasoning-enhanced embeddings into sparse, human-interpretable features, each associated with a coherent natural language description. By aggregating sparse feature overlaps across multiple document-side views, Xetrieval provides feature-level explanations of individual retrieval decisions. Experiments on diverse retrievers and benchmarks show that Xetrieval uncovers coherent interpretable features, yields stronger pair-level intervention effects, and supports task-level feature steering. The project page and source code are available at https://hihiczx.github.io/Xetrieval .