¿El sesgo de posición en los recuperadores densos está incorporado o se aprende de los datos?

Resumen

Los recuperadores densos presentan un sesgo posicional, favoreciendo aquellos documentos cuya información relevante para la consulta aparece al inicio, y degradando el rendimiento de recuperación cuando dicha información aparece más adelante. Si bien trabajos previos sobre el sesgo posicional en recuperadores densos se han centrado principalmente en explicaciones arquitectónicas, en este estudio analizamos cómo la distribución posicional de la evidencia en los datos de entrenamiento afecta la dirección del sesgo a nivel de recuperación. Para evaluar esto, construimos conjuntos de entrenamiento sintéticos con orientación posicional, en los que la evidencia relevante para la consulta aparece al inicio, en medio o al final de los documentos, y ajustamos ocho modelos preentrenados con diversidad arquitectónica bajo distribuciones de entrenamiento sesgadas por posición y equilibradas. A nivel de ranking, observamos un patrón direccional consistente en los modelos examinados: las distribuciones de entrenamiento sesgadas favorecen la evidencia en las posiciones correspondientes. El entrenamiento con distribución equilibrada reduce la sensibilidad posicional entre un 57% y un 87% en benchmarks sensibles a la posición, con un rendimiento medio competitivo en nuestro entorno controlado. Análisis a nivel de representación sugieren además que el ajuste fino a menudo reconfigura las preferencias posicionales aprendidas, aunque ciertas tendencias arquitectónicas o específicas del preentrenamiento persisten en algunos modelos. Estos resultados identifican la distribución de la posición de entrenamiento como un factor controlable importante en el sesgo posicional a nivel de recuperación, y sugieren la curación equilibrada de datos como una estrategia práctica de mitigación.

English

Dense retrievers exhibit positional bias, favoring documents whose query-relevant information appears near the beginning and degrading retrieval performance when the information appears later. While prior work on positional bias in dense retrievers has largely focused on architectural explanations, we study how the positional distribution of evidence in training data affects retrieval-level bias direction. To test this, we construct synthetic position-targeted training sets in which query-relevant evidence appears at the beginning, middle, or end of documents, and fine-tune eight architecturally diverse pretrained models under position-skewed and balanced training distributions. At the ranking level, we observe a strong directional pattern across the examined models: skewed training distributions favor evidence at the corresponding positions. Position-balanced training reduces positional sensitivity by 57--87\% on position-aware benchmarks, with competitive mean retrieval performance in our controlled setting. Representation-level analyses further suggest that fine-tuning often reshapes learned positional preferences, although pre-existing architectural or pretraining-specific tendencies persist in some models. These results identify training-position distribution as a major controllable factor in retrieval-level position bias and suggest balanced data curation as a practical mitigation strategy.