BioMamba: Предварительно обученная биомедицинская модель представления языка, использующая Mamba.
BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba
August 5, 2024
Авторы: Ling Yue, Sixue Xing, Yingzhou Lu, Tianfan Fu
cs.AI
Аннотация
Прогресс в области обработки естественного языка (NLP) в биологии зависит от способности моделей интерпретировать сложную биомедицинскую литературу. Традиционные модели часто испытывают трудности с комплексным и специфическим для этой области языком. В данной статье мы представляем BioMamba, предварительно обученную модель, специально разработанную для майнинга биомедицинского текста. BioMamba основана на архитектуре Mamba и предварительно обучена на обширном корпусе биомедицинской литературы. Наши эмпирические исследования показывают, что BioMamba значительно превосходит модели, такие как BioBERT и общедоменный Mamba, в различных биомедицинских задачах. Например, BioMamba достигает снижения перплексии в 100 раз и снижения потерь перекрестной энтропии в 4 раза на тестовом наборе BioASQ. Мы предоставляем обзор архитектуры модели, процесса предварительного обучения и методов настройки. Кроме того, мы публикуем код и обученную модель для облегчения дальнейших исследований.
English
The advancement of natural language processing (NLP) in biology hinges on
models' ability to interpret intricate biomedical literature. Traditional
models often struggle with the complex and domain-specific language in this
field. In this paper, we present BioMamba, a pre-trained model specifically
designed for biomedical text mining. BioMamba builds upon the Mamba
architecture and is pre-trained on an extensive corpus of biomedical
literature. Our empirical studies demonstrate that BioMamba significantly
outperforms models like BioBERT and general-domain Mamba across various
biomedical tasks. For instance, BioMamba achieves a 100 times reduction in
perplexity and a 4 times reduction in cross-entropy loss on the BioASQ test
set. We provide an overview of the model architecture, pre-training process,
and fine-tuning techniques. Additionally, we release the code and trained model
to facilitate further research.Summary
AI-Generated Summary