ChatPaper.aiChatPaper

密な検索器における位置バイアスは、組み込み済みなのか、それともデータから学習されたものなのか?

Is Position Bias in Dense Retrievers Built In-or Learned from Data?

May 26, 2026
著者: Daegon Yu, SeungYoon Han, Woomyoung Park
cs.AI

要旨

密集検索器には位置バイアスが存在し、クエリ関連情報が文書の先頭付近にある場合にその文書を優先し、情報が後方にある場合には検索性能が低下する。従来の研究では、密集検索器における位置バイアスの原因を主にアーキテクチャの観点から説明してきたが、本研究では訓練データ内の証拠の位置分布が検索レベルのバイアス方向にどのように影響するかを検討する。この検証のため、クエリ関連の証拠が文書の先頭、中間、末尾に現れる合成位置指向型訓練セットを構築し、位置に偏りのある分布とバランスの取れた分布のもとで、アーキテクチャの多様な8種類の事前学習モデルをファインチューニングする。ランキングレベルでは、調査したモデル全体にわたって強い方向性パターンが観察された。すなわち、偏った訓練分布は対応する位置の証拠を優先する。位置バランスの取れた訓練により、位置認識ベンチマークにおける位置感度が57~87%低下し、制御された設定下では平均検索性能も競争力のあるものとなった。表現レベルの分析からさらに、ファインチューニングにより学習された位置選好がしばしば再形成されるものの、一部のモデルでは既存のアーキテクチャや事前学習特有の傾向が持続することが示唆された。これらの結果は、訓練時の位置分布が検索レベルの位置バイアスにおける主要な制御可能因子であることを示し、バランスの取れたデータキュレーションが実用的な緩和戦略であることを示唆している。
English
Dense retrievers exhibit positional bias, favoring documents whose query-relevant information appears near the beginning and degrading retrieval performance when the information appears later. While prior work on positional bias in dense retrievers has largely focused on architectural explanations, we study how the positional distribution of evidence in training data affects retrieval-level bias direction. To test this, we construct synthetic position-targeted training sets in which query-relevant evidence appears at the beginning, middle, or end of documents, and fine-tune eight architecturally diverse pretrained models under position-skewed and balanced training distributions. At the ranking level, we observe a strong directional pattern across the examined models: skewed training distributions favor evidence at the corresponding positions. Position-balanced training reduces positional sensitivity by 57--87\% on position-aware benchmarks, with competitive mean retrieval performance in our controlled setting. Representation-level analyses further suggest that fine-tuning often reshapes learned positional preferences, although pre-existing architectural or pretraining-specific tendencies persist in some models. These results identify training-position distribution as a major controllable factor in retrieval-level position bias and suggest balanced data curation as a practical mitigation strategy.