ChatPaper.aiChatPaper

BioMamba: Предварительно обученная биомедицинская модель представления языка, использующая Mamba.

BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba

August 5, 2024
Авторы: Ling Yue, Sixue Xing, Yingzhou Lu, Tianfan Fu
cs.AI

Аннотация

Прогресс в области обработки естественного языка (NLP) в биологии зависит от способности моделей интерпретировать сложную биомедицинскую литературу. Традиционные модели часто испытывают трудности с комплексным и специфическим для этой области языком. В данной статье мы представляем BioMamba, предварительно обученную модель, специально разработанную для майнинга биомедицинского текста. BioMamba основана на архитектуре Mamba и предварительно обучена на обширном корпусе биомедицинской литературы. Наши эмпирические исследования показывают, что BioMamba значительно превосходит модели, такие как BioBERT и общедоменный Mamba, в различных биомедицинских задачах. Например, BioMamba достигает снижения перплексии в 100 раз и снижения потерь перекрестной энтропии в 4 раза на тестовом наборе BioASQ. Мы предоставляем обзор архитектуры модели, процесса предварительного обучения и методов настройки. Кроме того, мы публикуем код и обученную модель для облегчения дальнейших исследований.
English
The advancement of natural language processing (NLP) in biology hinges on models' ability to interpret intricate biomedical literature. Traditional models often struggle with the complex and domain-specific language in this field. In this paper, we present BioMamba, a pre-trained model specifically designed for biomedical text mining. BioMamba builds upon the Mamba architecture and is pre-trained on an extensive corpus of biomedical literature. Our empirical studies demonstrate that BioMamba significantly outperforms models like BioBERT and general-domain Mamba across various biomedical tasks. For instance, BioMamba achieves a 100 times reduction in perplexity and a 4 times reduction in cross-entropy loss on the BioASQ test set. We provide an overview of the model architecture, pre-training process, and fine-tuning techniques. Additionally, we release the code and trained model to facilitate further research.

Summary

AI-Generated Summary

PDF112November 28, 2024