ChatPaper.aiChatPaper

밀집 검색기의 붕괴: 짧고, 이르며, 문자적 편향이 사실적 증거를 압도하다

Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence

March 6, 2025
저자: Mohsen Fayyaz, Ali Modarressi, Hinrich Schuetze, Nanyun Peng
cs.AI

초록

밀집 검색 모델은 정보 검색(IR) 애플리케이션, 특히 검색 증강 생성(RAG)과 같은 분야에서 널리 사용됩니다. 이러한 시스템에서 첫 번째 단계로 자주 활용되기 때문에, 이들의 견고성은 실패를 방지하는 데 매우 중요합니다. 본 연구에서는 관계 추출 데이터셋(예: Re-DocRED)을 재활용하여, Dragon+ 및 Contriever와 같은 검색 모델에서 짧은 문서를 선호하는 휴리스틱 편향의 영향을 정량적으로 측정하기 위한 통제 실험을 설계했습니다. 연구 결과에 따르면, 검색 모델들은 종종 문서의 시작 부분을 과도하게 우선시하거나, 짧은 문서, 반복된 엔티티, 문자 그대로의 일치와 같은 피상적인 패턴에 의존하는 것으로 나타났습니다. 또한, 문서가 쿼리의 답을 포함하고 있는지 여부를 간과하며, 깊은 의미적 이해가 부족한 것으로 드러났습니다. 특히, 여러 편향이 결합될 경우 모델의 성능이 심각하게 저하되어, 답을 포함하지 않은 편향된 문서를 선택하는 비율이 3% 미만으로 떨어지는 것으로 확인되었습니다. 더 나아가, 이러한 편향은 RAG와 같은 다운스트림 애플리케이션에 직접적인 영향을 미치며, 검색 모델이 선호하는 문서가 대형 언어 모델(LLM)을 오도하여 아무런 문서를 제공하지 않았을 때보다 34% 더 낮은 성능을 보이는 결과를 초래했습니다.
English
Dense retrieval models are commonly used in Information Retrieval (IR) applications, such as Retrieval-Augmented Generation (RAG). Since they often serve as the first step in these systems, their robustness is critical to avoid failures. In this work, by repurposing a relation extraction dataset (e.g. Re-DocRED), we design controlled experiments to quantify the impact of heuristic biases, such as favoring shorter documents, in retrievers like Dragon+ and Contriever. Our findings reveal significant vulnerabilities: retrievers often rely on superficial patterns like over-prioritizing document beginnings, shorter documents, repeated entities, and literal matches. Additionally, they tend to overlook whether the document contains the query's answer, lacking deep semantic understanding. Notably, when multiple biases combine, models exhibit catastrophic performance degradation, selecting the answer-containing document in less than 3% of cases over a biased document without the answer. Furthermore, we show that these biases have direct consequences for downstream applications like RAG, where retrieval-preferred documents can mislead LLMs, resulting in a 34% performance drop than not providing any documents at all.

Summary

AI-Generated Summary

PDF42March 12, 2025