INDUS:科學應用的有效且高效語言模型INDUS: Effective and Efficient Language Models for Scientific
Applications
在一般領域語料庫上訓練的大型語言模型(LLMs)在自然語言處理(NLP)任務上展現出卓越的成果。然而,先前的研究表明,使用以特定領域為重點的語料庫訓練的LLMs在專業任務上表現更佳。受到這一重要見解的啟發,我們開發了INDUS,這是一套針對地球科學、生物學、物理學、太陽物理學、行星科學和天文物理學領域量身定制的LLMs套件,並使用從不同數據來源中提取的策劃科學語料庫進行訓練。這套模型包括:(1)使用特定領域詞彙和語料庫訓練的編碼器模型,以應對自然語言理解任務,(2)基於對比學習的通用文本嵌入模型,使用從多個來源提取的多樣數據集進行訓練,以應對信息檢索任務,以及(3)使用知識蒸餾技術創建的這些模型的較小版本,以應對具有延遲或資源限制的應用。我們還創建了三個新的科學基準數據集,分別是CLIMATE-CHANGE-NER(實體識別)、NASA-QA(抽取式QA)和NASA-IR(IR),以加速這些跨學科領域的研究。最後,我們展示了我們的模型在這些新任務以及感興趣領域現有基準任務上均優於通用編碼器(RoBERTa)和現有特定領域編碼器(SciBERT)。