ChatPaper.aiChatPaper

INDUS: Modelos de Linguagem Eficazes e Eficientes para Aplicações Científicas

INDUS: Effective and Efficient Language Models for Scientific Applications

May 17, 2024
Autores: Bishwaranjan Bhattacharjee, Aashka Trivedi, Masayasu Muraoka, Muthukumaran Ramasubramanian, Takuma Udagawa, Iksha Gurung, Rong Zhang, Bharath Dandala, Rahul Ramachandran, Manil Maskey, Kayleen Bugbee, Mike Little, Elizabeth Fancher, Lauren Sanders, Sylvain Costes, Sergi Blanco-Cuaresma, Kelly Lockhart, Thomas Allen, Felix Grazes, Megan Ansdel, Alberto Accomazzi, Yousef El-Kurdi, Davis Wertheimer, Birgit Pfitzmann, Cesar Berrospi Ramis, Michele Dolfi, Rafael Teixeira de Lima, Panos Vegenas, S. Karthik Mukkavilli, Peter Staar, Sanaz Vahidinia, Ryan McGranaghan, Armin Mehrabian, Tsendgar Lee
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) treinados em corpora de domínio geral demonstraram resultados notáveis em tarefas de processamento de linguagem natural (NLP). No entanto, pesquisas anteriores mostraram que LLMs treinados com corpora focados em domínios específicos têm desempenho superior em tarefas especializadas. Inspirados por essa percepção fundamental, desenvolvemos o INDUS, um conjunto abrangente de LLMs projetados para os domínios de ciências da Terra, biologia, física, heliofísica, ciências planetárias e astrofísica, treinados com corpora científicos curados provenientes de diversas fontes de dados. O conjunto de modelos inclui: (1) um modelo codificador treinado com vocabulário e corpora específicos do domínio para abordar tarefas de compreensão de linguagem natural, (2) um modelo de incorporação de texto geral baseado em aprendizado contrastivo, treinado com um conjunto diversificado de conjuntos de dados extraídos de múltiplas fontes para abordar tarefas de recuperação de informação, e (3) versões menores desses modelos criadas usando técnicas de destilação de conhecimento para atender aplicações com restrições de latência ou recursos. Também criamos três novos conjuntos de dados de referência científica, denominados CLIMATE-CHANGE-NER (reconhecimento de entidades), NASA-QA (QA extrativo) e NASA-IR (IR), para acelerar a pesquisa nesses campos multidisciplinares. Por fim, demonstramos que nossos modelos superam tanto codificadores de propósito geral (RoBERTa) quanto codificadores específicos de domínio existentes (SciBERT) nessas novas tarefas, bem como em tarefas de referência existentes nos domínios de interesse.
English
Large language models (LLMs) trained on general domain corpora showed remarkable results on natural language processing (NLP) tasks. However, previous research demonstrated LLMs trained using domain-focused corpora perform better on specialized tasks. Inspired by this pivotal insight, we developed INDUS, a comprehensive suite of LLMs tailored for the Earth science, biology, physics, heliophysics, planetary sciences and astrophysics domains and trained using curated scientific corpora drawn from diverse data sources. The suite of models include: (1) an encoder model trained using domain-specific vocabulary and corpora to address natural language understanding tasks, (2) a contrastive-learning-based general text embedding model trained using a diverse set of datasets drawn from multiple sources to address information retrieval tasks and (3) smaller versions of these models created using knowledge distillation techniques to address applications which have latency or resource constraints. We also created three new scientific benchmark datasets namely, CLIMATE-CHANGE-NER (entity-recognition), NASA-QA (extractive QA) and NASA-IR (IR) to accelerate research in these multi-disciplinary fields. Finally, we show that our models outperform both general-purpose encoders (RoBERTa) and existing domain-specific encoders (SciBERT) on these new tasks as well as existing benchmark tasks in the domains of interest.
PDF351December 15, 2024