Piège de la perplexité : les systèmes de recherche basés sur les modèles de langage surestiment les documents à faible perplexité
Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents
March 11, 2025
Auteurs: Haoyu Wang, Sunhao Dai, Haiyuan Zhao, Liang Pang, Xiao Zhang, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen
cs.AI
Résumé
Les études précédentes ont montré que les modèles de recherche basés sur les PLM (Pre-trained Language Models) présentent une préférence pour le contenu généré par les LLM (Large Language Models), attribuant des scores de pertinence plus élevés à ces documents même lorsque leur qualité sémantique est comparable à celle des documents rédigés par des humains. Ce phénomène, connu sous le nom de biais de source, menace le développement durable de l'écosystème d'accès à l'information. Cependant, les causes sous-jacentes de ce biais de source restent inexplorées. Dans cet article, nous expliquons le processus de recherche d'information à l'aide d'un graphe causal et découvrons que les systèmes de recherche basés sur les PLM apprennent des caractéristiques de perplexité pour estimer la pertinence, ce qui provoque un biais de source en classant plus haut les documents ayant une faible perplexité. L'analyse théorique révèle en outre que ce phénomène découle de la corrélation positive entre les gradients des fonctions de perte dans la tâche de modélisation du langage et la tâche de recherche. Sur la base de cette analyse, une méthode de débiaisage au moment de l'inférence inspirée par la causalité est proposée, appelée Diagnostic et Correction Causale (CDC). CDC diagnostique d'abord l'effet de biais de la perplexité, puis sépare cet effet de biais du score de pertinence global estimé. Les résultats expérimentaux dans trois domaines démontrent l'efficacité supérieure de CDC en matière de débiaisage, soulignant la validité de notre cadre explicatif proposé. Les codes sources sont disponibles à l'adresse suivante : https://github.com/WhyDwelledOnAi/Perplexity-Trap.
English
Previous studies have found that PLM-based retrieval models exhibit a
preference for LLM-generated content, assigning higher relevance scores to
these documents even when their semantic quality is comparable to human-written
ones. This phenomenon, known as source bias, threatens the sustainable
development of the information access ecosystem. However, the underlying causes
of source bias remain unexplored. In this paper, we explain the process of
information retrieval with a causal graph and discover that PLM-based
retrievers learn perplexity features for relevance estimation, causing source
bias by ranking the documents with low perplexity higher. Theoretical analysis
further reveals that the phenomenon stems from the positive correlation between
the gradients of the loss functions in language modeling task and retrieval
task. Based on the analysis, a causal-inspired inference-time debiasing method
is proposed, called Causal Diagnosis and Correction (CDC). CDC first diagnoses
the bias effect of the perplexity and then separates the bias effect from the
overall estimated relevance score. Experimental results across three domains
demonstrate the superior debiasing effectiveness of CDC, emphasizing the
validity of our proposed explanatory framework. Source codes are available at
https://github.com/WhyDwelledOnAi/Perplexity-Trap.Summary
AI-Generated Summary