ChatPaper.aiChatPaper

AutoMIR: Recuperação de Informações Médicas sem Rótulos de Relevância Efetiva sem a Necessidade de Treinamento

AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels

October 26, 2024
Autores: Lei Li, Xiangxu Zhang, Xiao Zhou, Zheng Liu
cs.AI

Resumo

A recuperação de informações médicas (MIR) é essencial para obter conhecimento médico relevante de diversas fontes, incluindo registros eletrônicos de saúde, literatura científica e bancos de dados médicos. No entanto, alcançar uma recuperação densa eficaz sem treinamento no domínio médico apresenta desafios substanciais devido à falta de dados rotulados como relevantes. Neste artigo, apresentamos uma abordagem inovadora chamada Incorporação de Documentos Hipotéticos com Autoaprendizado (SL-HyDE) para lidar com essa questão. O SL-HyDE aproveita grandes modelos de linguagem (LLMs) como geradores para criar documentos hipotéticos com base em uma determinada consulta. Esses documentos gerados encapsulam o contexto médico-chave, orientando um recuperador denso na identificação dos documentos mais relevantes. O framework de autoaprendizado aprimora progressivamente tanto a geração de pseudo-documentos quanto a recuperação, utilizando corpora médicos não rotulados sem a necessidade de dados rotulados como relevantes. Além disso, apresentamos o Conjunto de Dados de Referência para Recuperação de Informações Médicas em Chinês (CMIRB), um framework abrangente de avaliação fundamentado em cenários médicos do mundo real, abrangendo cinco tarefas e dez conjuntos de dados. Ao avaliar dez modelos no CMIRB, estabelecemos um padrão rigoroso para avaliar sistemas de recuperação de informações médicas. Os resultados experimentais demonstram que o SL-HyDE supera significativamente os métodos existentes em precisão de recuperação, ao mesmo tempo que apresenta forte capacidade de generalização e escalabilidade em diversas configurações de LLM e recuperador. Os dados do CMIRB e o código de avaliação estão disponíveis publicamente em: https://github.com/CMIRB-benchmark/CMIRB.
English
Medical information retrieval (MIR) is essential for retrieving relevant medical knowledge from diverse sources, including electronic health records, scientific literature, and medical databases. However, achieving effective zero-shot dense retrieval in the medical domain poses substantial challenges due to the lack of relevance-labeled data. In this paper, we introduce a novel approach called Self-Learning Hypothetical Document Embeddings (SL-HyDE) to tackle this issue. SL-HyDE leverages large language models (LLMs) as generators to generate hypothetical documents based on a given query. These generated documents encapsulate key medical context, guiding a dense retriever in identifying the most relevant documents. The self-learning framework progressively refines both pseudo-document generation and retrieval, utilizing unlabeled medical corpora without requiring any relevance-labeled data. Additionally, we present the Chinese Medical Information Retrieval Benchmark (CMIRB), a comprehensive evaluation framework grounded in real-world medical scenarios, encompassing five tasks and ten datasets. By benchmarking ten models on CMIRB, we establish a rigorous standard for evaluating medical information retrieval systems. Experimental results demonstrate that SL-HyDE significantly surpasses existing methods in retrieval accuracy while showcasing strong generalization and scalability across various LLM and retriever configurations. CMIRB data and evaluation code are publicly available at: https://github.com/CMIRB-benchmark/CMIRB.

Summary

AI-Generated Summary

PDF82November 16, 2024