Perplexity-val: op PLM gebaseerde retrievers overschatten documenten met lage perplexiteit
Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents
March 11, 2025
Auteurs: Haoyu Wang, Sunhao Dai, Haiyuan Zhao, Liang Pang, Xiao Zhang, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen
cs.AI
Samenvatting
Eerdere studies hebben aangetoond dat op PLM gebaseerde retrievalsystemen een voorkeur vertonen voor door LLM gegenereerde inhoud, waarbij ze hogere relevantiescores toekennen aan deze documenten, zelfs wanneer hun semantische kwaliteit vergelijkbaar is met door mensen geschreven documenten. Dit fenomeen, bekend als bronbias, vormt een bedreiging voor de duurzame ontwikkeling van het ecosysteem voor informatie toegang. De onderliggende oorzaken van bronbias zijn echter nog niet onderzocht. In dit artikel verklaren we het proces van informatie retrieval met een causaal diagram en ontdekken we dat op PLM gebaseerde retrievers perplexiteitskenmerken leren voor relevantieschatting, wat bronbias veroorzaakt door documenten met een lage perplexiteit hoger te rangschikken. Theoretische analyse onthult verder dat het fenomeen voortkomt uit de positieve correlatie tussen de gradiënten van de verliesfuncties in de taak van taalmodellering en de retrievetaak. Op basis van de analyse wordt een causaal geïnspireerde debiasingmethode tijdens inferentie voorgesteld, genaamd Causal Diagnosis and Correction (CDC). CDC diagnosticeert eerst het biaseffect van de perplexiteit en scheidt vervolgens het biaseffect van de totale geschatte relevantiescore. Experimentele resultaten in drie domeinen tonen de superieure debiasing effectiviteit van CDC aan, wat de geldigheid van ons voorgestelde verklaringskader benadrukt. Broncodes zijn beschikbaar op https://github.com/WhyDwelledOnAi/Perplexity-Trap.
English
Previous studies have found that PLM-based retrieval models exhibit a
preference for LLM-generated content, assigning higher relevance scores to
these documents even when their semantic quality is comparable to human-written
ones. This phenomenon, known as source bias, threatens the sustainable
development of the information access ecosystem. However, the underlying causes
of source bias remain unexplored. In this paper, we explain the process of
information retrieval with a causal graph and discover that PLM-based
retrievers learn perplexity features for relevance estimation, causing source
bias by ranking the documents with low perplexity higher. Theoretical analysis
further reveals that the phenomenon stems from the positive correlation between
the gradients of the loss functions in language modeling task and retrieval
task. Based on the analysis, a causal-inspired inference-time debiasing method
is proposed, called Causal Diagnosis and Correction (CDC). CDC first diagnoses
the bias effect of the perplexity and then separates the bias effect from the
overall estimated relevance score. Experimental results across three domains
demonstrate the superior debiasing effectiveness of CDC, emphasizing the
validity of our proposed explanatory framework. Source codes are available at
https://github.com/WhyDwelledOnAi/Perplexity-Trap.Summary
AI-Generated Summary