ChatPaper.aiChatPaper

BiCA: Recuperação Densita Biomédica Eficaz com Negativos Difíceis Conscientes de Citações

BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives

November 11, 2025
Autores: Aarush Sinha, Pavan Kumar S, Roshan Balaji, Nirav Pravinbhai Bhatt
cs.AI

Resumo

Os negativos difíceis são essenciais para treinar modelos de recuperação eficazes. A mineração de negativos difíceis normalmente depende da classificação de documentos usando *cross-encoders* ou modelos de incorporação estática baseados em métricas de similaridade, como a distância do cosseno. A mineração de negativos difíceis torna-se um desafio para os domínios biomédico e científico devido à dificuldade em distinguir entre o documento fonte e os documentos negativos difíceis. No entanto, os documentos referenciados compartilham naturalmente uma relevância contextual com o documento fonte, mas não são duplicatas, tornando-os bem adequados como negativos difíceis. Neste trabalho, propomos o BiCA: Recuperação Densa Biomédica com Negativos Difíceis Cientes de Citações, uma abordagem para mineração de negativos difíceis que utiliza ligações de citação em 20.000 artigos do PubMed para melhorar um recuperador denso pequeno e específico de domínio. Ajustamos finamente os modelos GTE_small e GTE_Base usando esses negativos informados por citações e observamos melhorias consistentes na recuperação densa *zero-shot* usando nDCG@10 para tarefas dentro e fora do domínio no BEIR, superando as linhas de base em tópicos de cauda longa no LoTTE usando Success@5. Nossos achados destacam o potencial de aproveitar a estrutura de ligação de documentos para gerar negativos altamente informativos, permitindo um desempenho de ponta com ajuste fino mínimo e demonstrando um caminho para uma adaptação de domínio altamente eficiente em termos de dados.
English
Hard negatives are essential for training effective retrieval models. Hard-negative mining typically relies on ranking documents using cross-encoders or static embedding models based on similarity metrics such as cosine distance. Hard negative mining becomes challenging for biomedical and scientific domains due to the difficulty in distinguishing between source and hard negative documents. However, referenced documents naturally share contextual relevance with the source document but are not duplicates, making them well-suited as hard negatives. In this work, we propose BiCA: Biomedical Dense Retrieval with Citation-Aware Hard Negatives, an approach for hard-negative mining by utilizing citation links in 20,000 PubMed articles for improving a domain-specific small dense retriever. We fine-tune the GTE_small and GTE_Base models using these citation-informed negatives and observe consistent improvements in zero-shot dense retrieval using nDCG@10 for both in-domain and out-of-domain tasks on BEIR and outperform baselines on long-tailed topics in LoTTE using Success@5. Our findings highlight the potential of leveraging document link structure to generate highly informative negatives, enabling state-of-the-art performance with minimal fine-tuning and demonstrating a path towards highly data-efficient domain adaptation.
PDF22December 2, 2025