ChatPaper.aiChatPaper

BiCA: Effectieve Biomedische Dichte Retrieval met Citation-Aware Hard Negatives

BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives

November 11, 2025
Auteurs: Aarush Sinha, Pavan Kumar S, Roshan Balaji, Nirav Pravinbhai Bhatt
cs.AI

Samenvatting

Harde negatieven zijn essentieel voor het trainen van effectieve retrievalsystemen. Het minen van harde negatieven berust typisch op het rangschikken van documenten met behulp van cross-encoders of statische embeddingmodellen op basis van similariteitsmaten zoals de cosinusafstand. Het minen van harde negatieven is bijzonder uitdagend in biomedische en wetenschappelijke domeinen vanwege de moeilijkheid om bron- en hard-negatiefdocumenten te onderscheiden. Gerefereerde documenten delen echter van nature contextuele relevantie met het brondocument zonder duplicaten te zijn, waardoor ze bij uitstek geschikt zijn als harde negatieven. In dit werk stellen we BiCA voor: Biomedische Dense Retrieval met Citation-Aware Harde Negatieven, een aanpak voor het minen van harde negatieven door gebruik te maken van citatielinks in 20.000 PubMed-artikelen om een domeinspecifieke, kleine dense retriever te verbeteren. We fine-tunen de GTE_small- en GTE_base-modellen met deze op citaties gebaseerde negatieven en observeren consistente verbeteringen in zero-shot dense retrieval met nDCG@10 voor zowel in-domein als out-of-domein taken op BEIR, en overtreffen de baselineprestaties op long-tailed onderwerpen in LoTTE met Success@5. Onze bevindingen benadrukken het potentieel van het gebruik van documentlinkstructuren om hoogwaardige informatieve negatieven te genereren, wat state-of-the-art prestaties mogelijk maakt met minimale fine-tuning en een pad demonstreert naar zeer data-efficiënte domeinadaptatie.
English
Hard negatives are essential for training effective retrieval models. Hard-negative mining typically relies on ranking documents using cross-encoders or static embedding models based on similarity metrics such as cosine distance. Hard negative mining becomes challenging for biomedical and scientific domains due to the difficulty in distinguishing between source and hard negative documents. However, referenced documents naturally share contextual relevance with the source document but are not duplicates, making them well-suited as hard negatives. In this work, we propose BiCA: Biomedical Dense Retrieval with Citation-Aware Hard Negatives, an approach for hard-negative mining by utilizing citation links in 20,000 PubMed articles for improving a domain-specific small dense retriever. We fine-tune the GTE_small and GTE_Base models using these citation-informed negatives and observe consistent improvements in zero-shot dense retrieval using nDCG@10 for both in-domain and out-of-domain tasks on BEIR and outperform baselines on long-tailed topics in LoTTE using Success@5. Our findings highlight the potential of leveraging document link structure to generate highly informative negatives, enabling state-of-the-art performance with minimal fine-tuning and demonstrating a path towards highly data-efficient domain adaptation.
PDF22December 2, 2025