BiCA: Recupero Denso Biomedico Efficace con Negativi Difficili Consapevoli delle Citazioni
BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives
November 11, 2025
Autori: Aarush Sinha, Pavan Kumar S, Roshan Balaji, Nirav Pravinbhai Bhatt
cs.AI
Abstract
I negativi difficili sono essenziali per addestrare modelli di retrieval efficaci. La selezione di negativi difficili si basa tipicamente sul ranking dei documenti utilizzando cross-encoder o modelli di embedding statici basati su metriche di similarità come la distanza coseno. La selezione di negativi difficili diventa impegnativa per i domini biomedici e scientifici a causa della difficoltà nel distinguere tra i documenti sorgente e quelli negativi difficili. Tuttavia, i documenti citati condividono naturalmente una rilevanza contestuale con il documento sorgente senza esserne duplicati, rendendoli ideali come negativi difficili. In questo lavoro, proponiamo BiCA: Biomedical Dense Retrieval with Citation-Aware Hard Negatives, un approccio per la selezione di negativi difficili che sfrutta i link citazionali in 20.000 articoli PubMed per migliorare un dense retriever piccolo e specifico per il dominio. Addestriamo i modelli GTE_small e GTE_Base utilizzando questi negativi informati dalle citazioni e osserviamo miglioramenti consistenti nel dense retrieval zero-shot utilizzando nDCG@10 sia per task in-dominio che out-of-dominio su BEIR, superando le baseline su argomenti a coda lunga in LoTTE utilizzando Success@5. I nostri risultati evidenziano il potenziale dello sfruttamento della struttura dei link documentali per generare negativi altamente informativi, consentendo prestazioni allo stato dell'arte con un fine-tuning minimo e dimostrando una strada verso un adattamento di dominio altamente efficiente in termini di dati.
English
Hard negatives are essential for training effective retrieval models. Hard-negative mining typically relies on ranking documents using cross-encoders or static embedding models based on similarity metrics such as cosine distance. Hard negative mining becomes challenging for biomedical and scientific domains due to the difficulty in distinguishing between source and hard negative documents. However, referenced documents naturally share contextual relevance with the source document but are not duplicates, making them well-suited as hard negatives. In this work, we propose BiCA: Biomedical Dense Retrieval with Citation-Aware Hard Negatives, an approach for hard-negative mining by utilizing citation links in 20,000 PubMed articles for improving a domain-specific small dense retriever. We fine-tune the GTE_small and GTE_Base models using these citation-informed negatives and observe consistent improvements in zero-shot dense retrieval using nDCG@10 for both in-domain and out-of-domain tasks on BEIR and outperform baselines on long-tailed topics in LoTTE using Success@5. Our findings highlight the potential of leveraging document link structure to generate highly informative negatives, enabling state-of-the-art performance with minimal fine-tuning and demonstrating a path towards highly data-efficient domain adaptation.