INDUS: Modelli Linguistici Efficienti ed Efficaci per Applicazioni Scientifiche
INDUS: Effective and Efficient Language Models for Scientific Applications
May 17, 2024
Autori: Bishwaranjan Bhattacharjee, Aashka Trivedi, Masayasu Muraoka, Muthukumaran Ramasubramanian, Takuma Udagawa, Iksha Gurung, Rong Zhang, Bharath Dandala, Rahul Ramachandran, Manil Maskey, Kayleen Bugbee, Mike Little, Elizabeth Fancher, Lauren Sanders, Sylvain Costes, Sergi Blanco-Cuaresma, Kelly Lockhart, Thomas Allen, Felix Grazes, Megan Ansdel, Alberto Accomazzi, Yousef El-Kurdi, Davis Wertheimer, Birgit Pfitzmann, Cesar Berrospi Ramis, Michele Dolfi, Rafael Teixeira de Lima, Panos Vegenas, S. Karthik Mukkavilli, Peter Staar, Sanaz Vahidinia, Ryan McGranaghan, Armin Mehrabian, Tsendgar Lee
cs.AI
Abstract
I grandi modelli linguistici (LLM) addestrati su corpora di dominio generale hanno mostrato risultati notevoli nelle attività di elaborazione del linguaggio naturale (NLP). Tuttavia, ricerche precedenti hanno dimostrato che i LLM addestrati utilizzando corpora focalizzati su domini specifici ottengono prestazioni migliori in compiti specializzati. Ispirati da questa intuizione fondamentale, abbiamo sviluppato INDUS, una suite completa di LLM progettati specificamente per i domini delle scienze della Terra, biologia, fisica, eliofisica, scienze planetarie e astrofisica, addestrati utilizzando corpora scientifici curati provenienti da diverse fonti di dati. La suite di modelli include: (1) un modello encoder addestrato utilizzando vocabolario e corpora specifici del dominio per affrontare compiti di comprensione del linguaggio naturale, (2) un modello di embedding testuale generale basato su apprendimento contrastivo, addestrato utilizzando un insieme diversificato di dataset provenienti da più fonti per affrontare compiti di recupero delle informazioni, e (3) versioni più piccole di questi modelli create utilizzando tecniche di distillazione della conoscenza per affrontare applicazioni con vincoli di latenza o risorse. Abbiamo inoltre creato tre nuovi dataset di benchmark scientifici, ovvero CLIMATE-CHANGE-NER (riconoscimento di entità), NASA-QA (QA estrattivo) e NASA-IR (IR), per accelerare la ricerca in questi campi multidisciplinari. Infine, dimostriamo che i nostri modelli superano sia gli encoder generici (RoBERTa) che gli encoder specifici per dominio esistenti (SciBERT) in questi nuovi compiti, così come nei compiti di benchmark esistenti nei domini di interesse.
English
Large language models (LLMs) trained on general domain corpora showed
remarkable results on natural language processing (NLP) tasks. However,
previous research demonstrated LLMs trained using domain-focused corpora
perform better on specialized tasks. Inspired by this pivotal insight, we
developed INDUS, a comprehensive suite of LLMs tailored for the Earth science,
biology, physics, heliophysics, planetary sciences and astrophysics domains and
trained using curated scientific corpora drawn from diverse data sources. The
suite of models include: (1) an encoder model trained using domain-specific
vocabulary and corpora to address natural language understanding tasks, (2) a
contrastive-learning-based general text embedding model trained using a diverse
set of datasets drawn from multiple sources to address information retrieval
tasks and (3) smaller versions of these models created using knowledge
distillation techniques to address applications which have latency or resource
constraints. We also created three new scientific benchmark datasets namely,
CLIMATE-CHANGE-NER (entity-recognition), NASA-QA (extractive QA) and NASA-IR
(IR) to accelerate research in these multi-disciplinary fields. Finally, we
show that our models outperform both general-purpose encoders (RoBERTa) and
existing domain-specific encoders (SciBERT) on these new tasks as well as
existing benchmark tasks in the domains of interest.