O viés de posição em recuperadores densos é incorporado ou aprendido a partir dos dados?

Resumo

Os recuperadores densos apresentam viés posicional, favorecendo documentos cuja informação relevante à consulta aparece próximo ao início e degradando o desempenho de recuperação quando a informação aparece posteriormente. Embora trabalhos anteriores sobre viés posicional em recuperadores densos tenham se concentrado principalmente em explicações arquiteturais, estudamos como a distribuição posicional das evidências nos dados de treinamento afeta a direção do viés no nível de recuperação. Para testar isso, construímos conjuntos de treinamento sintéticos direcionados por posição nos quais as evidências relevantes à consulta aparecem no início, meio ou fim dos documentos, e realizamos ajuste fino de oito modelos pré-treinados arquitetonicamente diversos sob distribuições de treinamento enviesadas por posição e balanceadas. No nível de ranqueamento, observamos um padrão direcional forte entre os modelos examinados: distribuições de treinamento enviesadas favorecem evidências nas posições correspondentes. O treinamento balanceado por posição reduz a sensibilidade posicional em 57–87% em benchmarks cientes de posição, com desempenho médio de recuperação competitivo em nosso ambiente controlado. Análises em nível de representação sugerem ainda que o ajuste fino frequentemente remodela as preferências posicionais aprendidas, embora tendências arquiteturais pré-existentes ou específicas do pré-treinamento persistam em alguns modelos. Esses resultados identificam a distribuição posicional do treinamento como um fator controlável importante no viés posicional em nível de recuperação e sugerem a curadoria balanceada de dados como uma estratégia prática de mitigação.

English

Dense retrievers exhibit positional bias, favoring documents whose query-relevant information appears near the beginning and degrading retrieval performance when the information appears later. While prior work on positional bias in dense retrievers has largely focused on architectural explanations, we study how the positional distribution of evidence in training data affects retrieval-level bias direction. To test this, we construct synthetic position-targeted training sets in which query-relevant evidence appears at the beginning, middle, or end of documents, and fine-tune eight architecturally diverse pretrained models under position-skewed and balanced training distributions. At the ranking level, we observe a strong directional pattern across the examined models: skewed training distributions favor evidence at the corresponding positions. Position-balanced training reduces positional sensitivity by 57--87\% on position-aware benchmarks, with competitive mean retrieval performance in our controlled setting. Representation-level analyses further suggest that fine-tuning often reshapes learned positional preferences, although pre-existing architectural or pretraining-specific tendencies persist in some models. These results identify training-position distribution as a major controllable factor in retrieval-level position bias and suggest balanced data curation as a practical mitigation strategy.