INDUS:科学应用中的有效和高效语言模型INDUS: Effective and Efficient Language Models for Scientific
Applications
在通用领域语料库上训练的大型语言模型(LLMs)在自然语言处理(NLP)任务上展现出显著成果。然而,先前的研究表明,使用面向特定领域语料库训练的LLMs在专业任务上表现更好。受到这一关键洞察的启发,我们开发了INDUS,这是一套专为地球科学、生物学、物理学、太阳物理学、行星科学和天体物理学领域量身定制的LLMs套件,使用从多样数据源中提取的策划科学语料库进行训练。这套模型包括:(1)使用领域特定词汇和语料库训练的编码器模型,用于处理自然语言理解任务,(2)基于对比学习的通用文本嵌入模型,使用来自多个来源的多样数据集进行训练,用于处理信息检索任务,以及(3)使用知识蒸馏技术创建的这些模型的较小版本,用于处理具有延迟或资源约束的应用。我们还创建了三个新的科学基准数据集,分别是CLIMATE-CHANGE-NER(实体识别)、NASA-QA(抽取式问答)和NASA-IR(信息检索),以加速这些跨学科领域的研究。最后,我们展示了我们的模型在这些新任务以及感兴趣领域现有基准任务上均优于通用编码器(RoBERTa)和现有领域特定编码器(SciBERT)。