BioMamba: Un Modello Pre-addestrato di Rappresentazione Linguistica Biomedica che Sfrutta Mamba
BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba
August 5, 2024
Autori: Ling Yue, Sixue Xing, Yingzhou Lu, Tianfan Fu
cs.AI
Abstract
Il progresso dell'elaborazione del linguaggio naturale (NLP) in biologia dipende dalla capacità dei modelli di interpretare la complessa letteratura biomedica. I modelli tradizionali spesso incontrano difficoltà con il linguaggio complesso e specifico di questo campo. In questo articolo, presentiamo BioMamba, un modello pre-addestrato specificamente progettato per il text mining biomedico. BioMamba si basa sull'architettura Mamba ed è pre-addestrato su un ampio corpus di letteratura biomedica. I nostri studi empirici dimostrano che BioMamba supera significativamente modelli come BioBERT e Mamba generico in vari compiti biomedici. Ad esempio, BioMamba ottiene una riduzione di 100 volte della perplessità e una riduzione di 4 volte della perdita di entropia incrociata sul set di test BioASQ. Forniamo una panoramica dell'architettura del modello, del processo di pre-addestramento e delle tecniche di fine-tuning. Inoltre, rilasciamo il codice e il modello addestrato per facilitare ulteriori ricerche.
English
The advancement of natural language processing (NLP) in biology hinges on
models' ability to interpret intricate biomedical literature. Traditional
models often struggle with the complex and domain-specific language in this
field. In this paper, we present BioMamba, a pre-trained model specifically
designed for biomedical text mining. BioMamba builds upon the Mamba
architecture and is pre-trained on an extensive corpus of biomedical
literature. Our empirical studies demonstrate that BioMamba significantly
outperforms models like BioBERT and general-domain Mamba across various
biomedical tasks. For instance, BioMamba achieves a 100 times reduction in
perplexity and a 4 times reduction in cross-entropy loss on the BioASQ test
set. We provide an overview of the model architecture, pre-training process,
and fine-tuning techniques. Additionally, we release the code and trained model
to facilitate further research.