Является ли позиционное смещение в плотных ретриверах встроенным или изучаемым из данных?

Аннотация

Плотные ретриверы демонстрируют позиционное смещение, отдавая предпочтение документам, в которых информация, релевантная запросу, встречается в начале, и ухудшая эффективность поиска, когда такая информация появляется позже. Хотя предыдущие исследования позиционного смещения в плотных ретриверах в основном фокусировались на архитектурных объяснениях, мы изучаем, как позиционное распределение свидетельств в обучающих данных влияет на направление смещения на уровне поиска. Для этого мы создаем синтетические обучающие наборы, ориентированные на конкретные позиции, в которых релевантные запросу свидетельства располагаются в начале, середине или конце документов, и выполняем точную настройку восьми архитектурно различных предварительно обученных моделей в условиях как смещенного по позициям, так и сбалансированного распределения обучения. На уровне ранжирования мы наблюдаем четкую направленную закономерность во всех исследованных моделях: смещенные распределения обучения благоприятствуют свидетельствам на соответствующих позициях. Сбалансированное по позициям обучение снижает позиционную чувствительность на 57–87% на позиционно-чувствительных эталонных тестах, при этом средняя эффективность поиска остается конкурентоспособной в наших контролируемых условиях. Анализ на уровне представлений дополнительно показывает, что точная настройка часто изменяет усвоенные позиционные предпочтения, хотя в некоторых моделях сохраняются существовавшие ранее архитектурные или обусловленные предварительным обучением тенденции. Полученные результаты определяют распределение позиций в обучении как основной контролируемый фактор позиционного смещения на уровне поиска и предлагают сбалансированную курацию данных в качестве практической стратегии его смягчения.

English

Dense retrievers exhibit positional bias, favoring documents whose query-relevant information appears near the beginning and degrading retrieval performance when the information appears later. While prior work on positional bias in dense retrievers has largely focused on architectural explanations, we study how the positional distribution of evidence in training data affects retrieval-level bias direction. To test this, we construct synthetic position-targeted training sets in which query-relevant evidence appears at the beginning, middle, or end of documents, and fine-tune eight architecturally diverse pretrained models under position-skewed and balanced training distributions. At the ranking level, we observe a strong directional pattern across the examined models: skewed training distributions favor evidence at the corresponding positions. Position-balanced training reduces positional sensitivity by 57--87\% on position-aware benchmarks, with competitive mean retrieval performance in our controlled setting. Representation-level analyses further suggest that fine-tuning often reshapes learned positional preferences, although pre-existing architectural or pretraining-specific tendencies persist in some models. These results identify training-position distribution as a major controllable factor in retrieval-level position bias and suggest balanced data curation as a practical mitigation strategy.