Armadilha da Perplexidade: Recuperadores Baseados em PLM Superestimam Documentos com Baixa Perplexidade
Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents
March 11, 2025
Autores: Haoyu Wang, Sunhao Dai, Haiyuan Zhao, Liang Pang, Xiao Zhang, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen
cs.AI
Resumo
Estudos anteriores descobriram que modelos de recuperação baseados em PLM (Modelos de Linguagem Pré-treinados) exibem uma preferência por conteúdo gerado por LLM (Modelos de Linguagem de Grande Escala), atribuindo pontuações de relevância mais altas a esses documentos, mesmo quando sua qualidade semântica é comparável à de textos escritos por humanos. Esse fenômeno, conhecido como viés de origem, ameaça o desenvolvimento sustentável do ecossistema de acesso à informação. No entanto, as causas subjacentes ao viés de origem permanecem inexploradas. Neste artigo, explicamos o processo de recuperação de informação com um gráfico causal e descobrimos que os recuperadores baseados em PLM aprendem características de perplexidade para estimar a relevância, causando o viés de origem ao classificar documentos com baixa perplexidade mais alto. A análise teórica revela ainda que o fenômeno decorre da correlação positiva entre os gradientes das funções de perda na tarefa de modelagem de linguagem e na tarefa de recuperação. Com base na análise, propomos um método de desvio no momento da inferência inspirado na causalidade, chamado Diagnóstico e Correção Causal (CDC, na sigla em inglês). O CDC primeiro diagnostica o efeito do viés da perplexidade e, em seguida, separa o efeito do viés da pontuação geral de relevância estimada. Os resultados experimentais em três domínios demonstram a eficácia superior do CDC na redução de viés, enfatizando a validade do nosso framework explicativo proposto. Os códigos-fonte estão disponíveis em https://github.com/WhyDwelledOnAi/Perplexity-Trap.
English
Previous studies have found that PLM-based retrieval models exhibit a
preference for LLM-generated content, assigning higher relevance scores to
these documents even when their semantic quality is comparable to human-written
ones. This phenomenon, known as source bias, threatens the sustainable
development of the information access ecosystem. However, the underlying causes
of source bias remain unexplored. In this paper, we explain the process of
information retrieval with a causal graph and discover that PLM-based
retrievers learn perplexity features for relevance estimation, causing source
bias by ranking the documents with low perplexity higher. Theoretical analysis
further reveals that the phenomenon stems from the positive correlation between
the gradients of the loss functions in language modeling task and retrieval
task. Based on the analysis, a causal-inspired inference-time debiasing method
is proposed, called Causal Diagnosis and Correction (CDC). CDC first diagnoses
the bias effect of the perplexity and then separates the bias effect from the
overall estimated relevance score. Experimental results across three domains
demonstrate the superior debiasing effectiveness of CDC, emphasizing the
validity of our proposed explanatory framework. Source codes are available at
https://github.com/WhyDwelledOnAi/Perplexity-Trap.Summary
AI-Generated Summary