INDUS: Effectieve en efficiënte taalmodelen voor wetenschappelijke toepassingen
INDUS: Effective and Efficient Language Models for Scientific Applications
May 17, 2024
Auteurs: Bishwaranjan Bhattacharjee, Aashka Trivedi, Masayasu Muraoka, Muthukumaran Ramasubramanian, Takuma Udagawa, Iksha Gurung, Rong Zhang, Bharath Dandala, Rahul Ramachandran, Manil Maskey, Kayleen Bugbee, Mike Little, Elizabeth Fancher, Lauren Sanders, Sylvain Costes, Sergi Blanco-Cuaresma, Kelly Lockhart, Thomas Allen, Felix Grazes, Megan Ansdel, Alberto Accomazzi, Yousef El-Kurdi, Davis Wertheimer, Birgit Pfitzmann, Cesar Berrospi Ramis, Michele Dolfi, Rafael Teixeira de Lima, Panos Vegenas, S. Karthik Mukkavilli, Peter Staar, Sanaz Vahidinia, Ryan McGranaghan, Armin Mehrabian, Tsendgar Lee
cs.AI
Samenvatting
Grote taalmmodellen (LLMs) die getraind zijn op algemene domeincorpora hebben opmerkelijke resultaten laten zien bij taken op het gebied van natuurlijke taalverwerking (NLP). Eerder onderzoek heeft echter aangetoond dat LLMs die getraind zijn met domeingerichte corpora beter presteren bij gespecialiseerde taken. Geïnspireerd door dit cruciale inzicht hebben we INDUS ontwikkeld, een uitgebreide suite van LLMs die specifiek zijn afgestemd op de domeinen aardwetenschappen, biologie, natuurkunde, heliofysica, planetaire wetenschappen en astrofysica, en die getraind zijn met zorgvuldig samengestelde wetenschappelijke corpora uit diverse databronnen. De suite van modellen omvat: (1) een encodermodel getraind met domeinspecifieke vocabulaire en corpora om taken voor natuurlijk taalbegrip aan te pakken, (2) een op contrastief leren gebaseerd algemeen tekstembeddingmodel getraind met een diverse set datasets uit meerdere bronnen om taken voor informatiezoeken aan te pakken, en (3) kleinere versies van deze modellen die zijn gemaakt met behulp van kennisdistillatietechnieken om toepassingen met latentie- of resourcebeperkingen aan te pakken. We hebben ook drie nieuwe wetenschappelijke benchmarkdatasets gecreëerd, namelijk CLIMATE-CHANGE-NER (entiteitsherkenning), NASA-QA (extractieve vraag-antwoord) en NASA-IR (informatiezoeken) om onderzoek in deze multidisciplinaire velden te versnellen. Tot slot laten we zien dat onze modellen zowel algemene encoders (RoBERTa) als bestaande domeinspecifieke encoders (SciBERT) overtreffen bij deze nieuwe taken, evenals bij bestaande benchmarktaken in de domeinen van belang.
English
Large language models (LLMs) trained on general domain corpora showed
remarkable results on natural language processing (NLP) tasks. However,
previous research demonstrated LLMs trained using domain-focused corpora
perform better on specialized tasks. Inspired by this pivotal insight, we
developed INDUS, a comprehensive suite of LLMs tailored for the Earth science,
biology, physics, heliophysics, planetary sciences and astrophysics domains and
trained using curated scientific corpora drawn from diverse data sources. The
suite of models include: (1) an encoder model trained using domain-specific
vocabulary and corpora to address natural language understanding tasks, (2) a
contrastive-learning-based general text embedding model trained using a diverse
set of datasets drawn from multiple sources to address information retrieval
tasks and (3) smaller versions of these models created using knowledge
distillation techniques to address applications which have latency or resource
constraints. We also created three new scientific benchmark datasets namely,
CLIMATE-CHANGE-NER (entity-recognition), NASA-QA (extractive QA) and NASA-IR
(IR) to accelerate research in these multi-disciplinary fields. Finally, we
show that our models outperform both general-purpose encoders (RoBERTa) and
existing domain-specific encoders (SciBERT) on these new tasks as well as
existing benchmark tasks in the domains of interest.