Ist der Positionsbias bei dichten Retrievern eingebaut oder aus Daten gelernt?

Zusammenfassung

Dense Retriever weisen einen Positionsbias auf, indem sie Dokumente bevorzugen, deren abfragerelevante Informationen nahe am Anfang erscheinen, und verschlechtern die Retrieval-Leistung, wenn die Informationen weiter hinten stehen. Während sich frühere Arbeiten zum Positionsbias bei dichten Retrievern weitgehend auf architektonische Erklärungen konzentrierten, untersuchen wir, wie die positionsbezogene Verteilung von Evidenz in Trainingsdaten die Richtung des Bias auf Retrieval-Ebene beeinflusst. Um dies zu testen, erstellen wir synthetische positionsgezielte Trainingsdatensätze, in denen abfragerelevante Evidenz am Anfang, in der Mitte oder am Ende von Dokumenten erscheint, und stimmen acht architektonisch vielfältige vortrainierte Modelle unter positionsschiefen und ausgeglichenen Trainingsverteilungen fein. Auf Ranking-Ebene beobachten wir ein starkes gerichtetes Muster über die untersuchten Modelle hinweg: Schiefe Trainingsverteilungen begünstigen Evidenz an den entsprechenden Positionen. Ein positionsausgeglichenes Training reduziert die positionsbedingte Sensitivität auf positionsbewussten Benchmarks um 57–87 %, bei wettbewerbsfähiger mittlerer Retrieval-Leistung in unserer kontrollierten Umgebung. Analysen auf Repräsentationsebene deuten zudem darauf hin, dass Feinabstimmung häufig gelernte Positionspräferenzen umformt, obwohl in einigen Modellen bereits bestehende architektonische oder vortrainingsspezifische Tendenzen bestehen bleiben. Diese Ergebnisse identifizieren die Trainings-Positionsverteilung als einen wesentlichen kontrollierbaren Faktor für positionsabhängigen Bias auf Retrieval-Ebene und legen eine ausgewogene Datenkuratierung als praktische Minderungsstrategie nahe.

English

Dense retrievers exhibit positional bias, favoring documents whose query-relevant information appears near the beginning and degrading retrieval performance when the information appears later. While prior work on positional bias in dense retrievers has largely focused on architectural explanations, we study how the positional distribution of evidence in training data affects retrieval-level bias direction. To test this, we construct synthetic position-targeted training sets in which query-relevant evidence appears at the beginning, middle, or end of documents, and fine-tune eight architecturally diverse pretrained models under position-skewed and balanced training distributions. At the ranking level, we observe a strong directional pattern across the examined models: skewed training distributions favor evidence at the corresponding positions. Position-balanced training reduces positional sensitivity by 57--87\% on position-aware benchmarks, with competitive mean retrieval performance in our controlled setting. Representation-level analyses further suggest that fine-tuning often reshapes learned positional preferences, although pre-existing architectural or pretraining-specific tendencies persist in some models. These results identify training-position distribution as a major controllable factor in retrieval-level position bias and suggest balanced data curation as a practical mitigation strategy.