Le biais de position dans les réseaux denses de recherche est-il intégré ou appris à partir des données ?

Résumé

Les retrieveurs denses présentent un biais de position, favorisant les documents dont l'information pertinente à la requête apparaît au début et dégradant les performances de recherche lorsque cette information apparaît plus tard. Alors que les travaux antérieurs sur le biais de position dans les retrieveurs denses se sont principalement concentrés sur des explications architecturales, nous étudions comment la distribution positionnelle des preuves dans les données d'entraînement influence la direction du biais au niveau de la recherche. Pour tester cela, nous construisons des ensembles d'entraînement synthétiques ciblés sur la position dans lesquels les preuves pertinentes aux requêtes apparaissent au début, au milieu ou à la fin des documents, et nous affinons huit modèles pré-entraînés architecturalement divers sous des distributions d'entraînement déséquilibrées en termes de position et équilibrées. Au niveau du classement, nous observons un fort motif directionnel parmi les modèles examinés : les distributions d'entraînement déséquilibrées favorisent les preuves aux positions correspondantes. L'entraînement équilibré en position réduit la sensibilité positionnelle de 57 à 87 % sur les benchmarks conscients de la position, avec des performances de recherche moyenne compétitives dans notre cadre contrôlé. Les analyses au niveau des représentations suggèrent en outre que l'affinage remodèle souvent les préférences positionnelles apprises, bien que des tendances architecturales ou spécifiques au pré-entraînement préexistantes persistent dans certains modèles. Ces résultats identifient la distribution de la position d'entraînement comme un facteur majeur contrôlable dans le biais de position au niveau de la recherche et suggèrent une curation équilibrée des données comme stratégie d'atténuation pratique.

English

Dense retrievers exhibit positional bias, favoring documents whose query-relevant information appears near the beginning and degrading retrieval performance when the information appears later. While prior work on positional bias in dense retrievers has largely focused on architectural explanations, we study how the positional distribution of evidence in training data affects retrieval-level bias direction. To test this, we construct synthetic position-targeted training sets in which query-relevant evidence appears at the beginning, middle, or end of documents, and fine-tune eight architecturally diverse pretrained models under position-skewed and balanced training distributions. At the ranking level, we observe a strong directional pattern across the examined models: skewed training distributions favor evidence at the corresponding positions. Position-balanced training reduces positional sensitivity by 57--87\% on position-aware benchmarks, with competitive mean retrieval performance in our controlled setting. Representation-level analyses further suggest that fine-tuning often reshapes learned positional preferences, although pre-existing architectural or pretraining-specific tendencies persist in some models. These results identify training-position distribution as a major controllable factor in retrieval-level position bias and suggest balanced data curation as a practical mitigation strategy.