ChatPaper.aiChatPaper

BioMamba: Un Modello Pre-addestrato di Rappresentazione Linguistica Biomedica che Sfrutta Mamba

BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba

August 5, 2024
Autori: Ling Yue, Sixue Xing, Yingzhou Lu, Tianfan Fu
cs.AI

Abstract

Il progresso dell'elaborazione del linguaggio naturale (NLP) in biologia dipende dalla capacità dei modelli di interpretare la complessa letteratura biomedica. I modelli tradizionali spesso incontrano difficoltà con il linguaggio complesso e specifico di questo campo. In questo articolo, presentiamo BioMamba, un modello pre-addestrato specificamente progettato per il text mining biomedico. BioMamba si basa sull'architettura Mamba ed è pre-addestrato su un ampio corpus di letteratura biomedica. I nostri studi empirici dimostrano che BioMamba supera significativamente modelli come BioBERT e Mamba generico in vari compiti biomedici. Ad esempio, BioMamba ottiene una riduzione di 100 volte della perplessità e una riduzione di 4 volte della perdita di entropia incrociata sul set di test BioASQ. Forniamo una panoramica dell'architettura del modello, del processo di pre-addestramento e delle tecniche di fine-tuning. Inoltre, rilasciamo il codice e il modello addestrato per facilitare ulteriori ricerche.
English
The advancement of natural language processing (NLP) in biology hinges on models' ability to interpret intricate biomedical literature. Traditional models often struggle with the complex and domain-specific language in this field. In this paper, we present BioMamba, a pre-trained model specifically designed for biomedical text mining. BioMamba builds upon the Mamba architecture and is pre-trained on an extensive corpus of biomedical literature. Our empirical studies demonstrate that BioMamba significantly outperforms models like BioBERT and general-domain Mamba across various biomedical tasks. For instance, BioMamba achieves a 100 times reduction in perplexity and a 4 times reduction in cross-entropy loss on the BioASQ test set. We provide an overview of the model architecture, pre-training process, and fine-tuning techniques. Additionally, we release the code and trained model to facilitate further research.
PDF112November 28, 2024