ChatPaper.aiChatPaper

BiCA: 인용 인식 하드 네거티브를 활용한 효과적인 생물의학 밀집 검색

BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives

November 11, 2025
저자: Aarush Sinha, Pavan Kumar S, Roshan Balaji, Nirav Pravinbhai Bhatt
cs.AI

초록

하드 네거티브는 효과적인 검색 모델 훈련에 필수적입니다. 하드 네거티브 마이닝은 일반적으로 코사인 거리와 같은 유사도 메트릭을 기반으로 교차 인코더 또는 정적 임베딩 모델을 사용하여 문서를 순위 매기는 방식에 의존합니다. 생의학 및 과학 도메인에서는 원본 문서와 하드 네거티브 문서를 구분하기 어려워 하드 네거티브 마이닝이 특히 어려운 과제가 됩니다. 그러나 참조 문서는 원본 문서와 자연스럽게 문맥적 관련성을 공유하지만 중복되지 않기 때문에 하드 네거티브로 매우 적합합니다. 본 연구에서는 20,000개의 PubMed 논문에서 인용 링크를 활용하여 도메인 특화 소형 밀집 검색기의 성능을 향상시키는 하드 네거티브 마이닝 접근법인 BiCA(Biomedical Dense Retrieval with Citation-Aware Hard Negatives)를 제안합니다. 우리는 이러한 인용 기반 네거티브를 사용하여 GTE_small 및 GTE_Base 모델을 미세 조정하였으며, BEIR의 도메인 내 및 도메인 외 작업에서 nDCG@10을 사용한 제로샷 밀집 검색 성능이 지속적으로 향상되고, LoTTE의 롱테일 토픽에서 Success@5 기준으로 기준선을 능가함을 관찰했습니다. 우리의 연구 결과는 문서 링크 구조를 활용하여 매우 유익한 네거티브를 생성함으로써 최소한의 미세 조정으로 최첨단 성능을 달성하고, 높은 데이터 효율성을 갖는 도메인 적응을 위한 길을 보여줍니다.
English
Hard negatives are essential for training effective retrieval models. Hard-negative mining typically relies on ranking documents using cross-encoders or static embedding models based on similarity metrics such as cosine distance. Hard negative mining becomes challenging for biomedical and scientific domains due to the difficulty in distinguishing between source and hard negative documents. However, referenced documents naturally share contextual relevance with the source document but are not duplicates, making them well-suited as hard negatives. In this work, we propose BiCA: Biomedical Dense Retrieval with Citation-Aware Hard Negatives, an approach for hard-negative mining by utilizing citation links in 20,000 PubMed articles for improving a domain-specific small dense retriever. We fine-tune the GTE_small and GTE_Base models using these citation-informed negatives and observe consistent improvements in zero-shot dense retrieval using nDCG@10 for both in-domain and out-of-domain tasks on BEIR and outperform baselines on long-tailed topics in LoTTE using Success@5. Our findings highlight the potential of leveraging document link structure to generate highly informative negatives, enabling state-of-the-art performance with minimal fine-tuning and demonstrating a path towards highly data-efficient domain adaptation.
PDF22December 2, 2025