ChatPaper.aiChatPaper

Trappola della Perplessità: I Recuperatori Basati su PLM Sovrastimano i Documenti a Bassa Perplessità

Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents

March 11, 2025
Autori: Haoyu Wang, Sunhao Dai, Haiyuan Zhao, Liang Pang, Xiao Zhang, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen
cs.AI

Abstract

Studi precedenti hanno riscontrato che i modelli di recupero basati su PLM (Pre-trained Language Models) mostrano una preferenza per i contenuti generati da LLM (Large Language Models), assegnando punteggi di rilevanza più elevati a questi documenti anche quando la loro qualità semantica è paragonabile a quella dei testi scritti da esseri umani. Questo fenomeno, noto come bias di origine, minaccia lo sviluppo sostenibile dell'ecosistema di accesso alle informazioni. Tuttavia, le cause sottostanti al bias di origine rimangono inesplorate. In questo articolo, spieghiamo il processo di recupero delle informazioni utilizzando un grafo causale e scopriamo che i sistemi di recupero basati su PLM apprendono caratteristiche di perplessità per la stima della rilevanza, causando il bias di origine classificando più in alto i documenti con bassa perplessità. L'analisi teorica rivela ulteriormente che il fenomeno deriva dalla correlazione positiva tra i gradienti delle funzioni di perdita nel task di modellazione del linguaggio e nel task di recupero. Sulla base di questa analisi, viene proposto un metodo di debiasing ispirato alla causalità da applicare al momento dell'inferenza, chiamato Causal Diagnosis and Correction (CDC). CDC prima diagnostica l'effetto del bias della perplessità e poi separa tale effetto dal punteggio complessivo di rilevanza stimato. I risultati sperimentali in tre diversi domini dimostrano l'efficacia superiore di CDC nel ridurre il bias, sottolineando la validità del nostro framework esplicativo proposto. I codici sorgente sono disponibili all'indirizzo https://github.com/WhyDwelledOnAi/Perplexity-Trap.
English
Previous studies have found that PLM-based retrieval models exhibit a preference for LLM-generated content, assigning higher relevance scores to these documents even when their semantic quality is comparable to human-written ones. This phenomenon, known as source bias, threatens the sustainable development of the information access ecosystem. However, the underlying causes of source bias remain unexplored. In this paper, we explain the process of information retrieval with a causal graph and discover that PLM-based retrievers learn perplexity features for relevance estimation, causing source bias by ranking the documents with low perplexity higher. Theoretical analysis further reveals that the phenomenon stems from the positive correlation between the gradients of the loss functions in language modeling task and retrieval task. Based on the analysis, a causal-inspired inference-time debiasing method is proposed, called Causal Diagnosis and Correction (CDC). CDC first diagnoses the bias effect of the perplexity and then separates the bias effect from the overall estimated relevance score. Experimental results across three domains demonstrate the superior debiasing effectiveness of CDC, emphasizing the validity of our proposed explanatory framework. Source codes are available at https://github.com/WhyDwelledOnAi/Perplexity-Trap.
PDF52March 12, 2025