Is positiebias in dense retrievers ingebouwd of aangeleerd uit data?

Samenvatting

Dichte retrievers vertonen positiebias: ze bevoordelen documenten waarin query-relevante informatie aan het begin staat, en de retrievalprestaties nemen af wanneer die informatie later verschijnt. Hoewel eerder onderzoek naar positiebias in dichte retrievers zich grotendeels richtte op architecturale verklaringen, bestuderen wij hoe de positionele verdeling van bewijs in trainingsdata de richting van bias op retrieverniveau beïnvloedt. Om dit te testen construeren we synthetische positiegerichte trainingssets waarin query-relevant bewijs aan het begin, midden of einde van documenten verschijnt, en finetunen we acht architecturaal diverse voorgetrainde modellen onder scheve en gebalanceerde trainingsdistributies. Op rangschikkingsniveau zien we een sterk directioneel patroon bij de onderzochte modellen: scheve trainingsdistributies bevoordelen bewijs op de corresponderende posities. Positiegebalanceerde training vermindert positionele gevoeligheid met 57–87% op positiebewuste benchmarks, met concurrerende gemiddelde retrievalprestaties in onze gecontroleerde omgeving. Analyses op representatieniveau suggereren verder dat finetunen vaak geleerde positievoorkeuren hervormt, hoewel bestaande architecturale of pretrainingsspecifieke neigingen bij sommige modellen blijven bestaan. Deze resultaten identificeren de positionele verdeling van trainingsdata als een belangrijke beheersbare factor in positiebias op retrieverniveau en wijzen op gebalanceerde datacuratie als een praktische mitigatiestrategie.

English

Dense retrievers exhibit positional bias, favoring documents whose query-relevant information appears near the beginning and degrading retrieval performance when the information appears later. While prior work on positional bias in dense retrievers has largely focused on architectural explanations, we study how the positional distribution of evidence in training data affects retrieval-level bias direction. To test this, we construct synthetic position-targeted training sets in which query-relevant evidence appears at the beginning, middle, or end of documents, and fine-tune eight architecturally diverse pretrained models under position-skewed and balanced training distributions. At the ranking level, we observe a strong directional pattern across the examined models: skewed training distributions favor evidence at the corresponding positions. Position-balanced training reduces positional sensitivity by 57--87\% on position-aware benchmarks, with competitive mean retrieval performance in our controlled setting. Representation-level analyses further suggest that fine-tuning often reshapes learned positional preferences, although pre-existing architectural or pretraining-specific tendencies persist in some models. These results identify training-position distribution as a major controllable factor in retrieval-level position bias and suggest balanced data curation as a practical mitigation strategy.