ChatPaper.aiChatPaper

BioMamba: Een vooraf getraind biomedisch taalrepresentatiemodel dat gebruikmaakt van Mamba

BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba

August 5, 2024
Auteurs: Ling Yue, Sixue Xing, Yingzhou Lu, Tianfan Fu
cs.AI

Samenvatting

De vooruitgang van natuurlijke taalverwerking (NLP) in de biologie hangt af van het vermogen van modellen om complexe biomedische literatuur te interpreteren. Traditionele modellen hebben vaak moeite met de complexe en domeinspecifieke taal in dit vakgebied. In dit artikel presenteren we BioMamba, een vooraf getraind model dat specifiek is ontworpen voor biomedische tekstanalyse. BioMamba bouwt voort op de Mamba-architectuur en is vooraf getraind op een uitgebreid corpus van biomedische literatuur. Onze empirische studies tonen aan dat BioMamba aanzienlijk beter presteert dan modellen zoals BioBERT en algemene Mamba-modellen bij diverse biomedische taken. Zo behaalt BioMamba bijvoorbeeld een 100-voudige reductie in perplexiteit en een 4-voudige reductie in kruis-entropieverlies op de BioASQ-testset. We geven een overzicht van de modelarchitectuur, het vooraf trainen en de fine-tuningtechnieken. Daarnaast stellen we de code en het getrainde model beschikbaar om verder onderzoek te vergemakkelijken.
English
The advancement of natural language processing (NLP) in biology hinges on models' ability to interpret intricate biomedical literature. Traditional models often struggle with the complex and domain-specific language in this field. In this paper, we present BioMamba, a pre-trained model specifically designed for biomedical text mining. BioMamba builds upon the Mamba architecture and is pre-trained on an extensive corpus of biomedical literature. Our empirical studies demonstrate that BioMamba significantly outperforms models like BioBERT and general-domain Mamba across various biomedical tasks. For instance, BioMamba achieves a 100 times reduction in perplexity and a 4 times reduction in cross-entropy loss on the BioASQ test set. We provide an overview of the model architecture, pre-training process, and fine-tuning techniques. Additionally, we release the code and trained model to facilitate further research.
PDF112November 28, 2024