Ловушка перплексии: ретриверы на основе языковых моделей переоценивают документы с низкой перплексией
Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents
March 11, 2025
Авторы: Haoyu Wang, Sunhao Dai, Haiyuan Zhao, Liang Pang, Xiao Zhang, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen
cs.AI
Аннотация
Предыдущие исследования показали, что модели поиска на основе языковых моделей (PLM) демонстрируют предпочтение к контенту, сгенерированному крупными языковыми моделями (LLM), присваивая таким документам более высокие оценки релевантности, даже когда их семантическое качество сопоставимо с текстами, написанными людьми. Это явление, известное как предвзятость источника, угрожает устойчивому развитию экосистемы доступа к информации. Однако основные причины такой предвзятости остаются неисследованными. В данной работе мы объясняем процесс информационного поиска с помощью причинно-следственного графа и обнаруживаем, что модели поиска на основе PLM изучают признаки перплексии для оценки релевантности, что приводит к предвзятости источника, ранжируя документы с низкой перплексией выше. Теоретический анализ дополнительно показывает, что это явление обусловлено положительной корреляцией между градиентами функций потерь в задачах языкового моделирования и поиска. На основе анализа предлагается метод устранения предвзятости на этапе вывода, вдохновленный причинно-следственным подходом, под названием Causal Diagnosis and Correction (CDC). CDC сначала диагностирует эффект предвзятости, связанный с перплексией, а затем отделяет этот эффект от общей оценки релевантности. Результаты экспериментов в трех различных областях демонстрируют превосходную эффективность CDC в устранении предвзятости, подчеркивая обоснованность предложенной нами объяснительной модели. Исходные коды доступны по адресу https://github.com/WhyDwelledOnAi/Perplexity-Trap.
English
Previous studies have found that PLM-based retrieval models exhibit a
preference for LLM-generated content, assigning higher relevance scores to
these documents even when their semantic quality is comparable to human-written
ones. This phenomenon, known as source bias, threatens the sustainable
development of the information access ecosystem. However, the underlying causes
of source bias remain unexplored. In this paper, we explain the process of
information retrieval with a causal graph and discover that PLM-based
retrievers learn perplexity features for relevance estimation, causing source
bias by ranking the documents with low perplexity higher. Theoretical analysis
further reveals that the phenomenon stems from the positive correlation between
the gradients of the loss functions in language modeling task and retrieval
task. Based on the analysis, a causal-inspired inference-time debiasing method
is proposed, called Causal Diagnosis and Correction (CDC). CDC first diagnoses
the bias effect of the perplexity and then separates the bias effect from the
overall estimated relevance score. Experimental results across three domains
demonstrate the superior debiasing effectiveness of CDC, emphasizing the
validity of our proposed explanatory framework. Source codes are available at
https://github.com/WhyDwelledOnAi/Perplexity-Trap.Summary
AI-Generated Summary