INDUS : Modèles de langage efficaces et performants pour les applications scientifiques
INDUS: Effective and Efficient Language Models for Scientific Applications
May 17, 2024
Auteurs: Bishwaranjan Bhattacharjee, Aashka Trivedi, Masayasu Muraoka, Muthukumaran Ramasubramanian, Takuma Udagawa, Iksha Gurung, Rong Zhang, Bharath Dandala, Rahul Ramachandran, Manil Maskey, Kayleen Bugbee, Mike Little, Elizabeth Fancher, Lauren Sanders, Sylvain Costes, Sergi Blanco-Cuaresma, Kelly Lockhart, Thomas Allen, Felix Grazes, Megan Ansdel, Alberto Accomazzi, Yousef El-Kurdi, Davis Wertheimer, Birgit Pfitzmann, Cesar Berrospi Ramis, Michele Dolfi, Rafael Teixeira de Lima, Panos Vegenas, S. Karthik Mukkavilli, Peter Staar, Sanaz Vahidinia, Ryan McGranaghan, Armin Mehrabian, Tsendgar Lee
cs.AI
Résumé
Les grands modèles de langage (LLMs) entraînés sur des corpus de domaine général ont montré des résultats remarquables dans les tâches de traitement du langage naturel (NLP). Cependant, des recherches antérieures ont démontré que les LLMs entraînés à l'aide de corpus centrés sur un domaine spécifique obtiennent de meilleures performances sur des tâches spécialisées. Inspirés par cette observation cruciale, nous avons développé INDUS, une suite complète de LLMs spécialement conçus pour les domaines des sciences de la Terre, de la biologie, de la physique, de l'héliophysique, des sciences planétaires et de l'astrophysique, et entraînés à l'aide de corpus scientifiques soigneusement sélectionnés provenant de diverses sources de données. Cette suite de modèles comprend : (1) un modèle encodeur entraîné à l'aide d'un vocabulaire et de corpus spécifiques au domaine pour traiter les tâches de compréhension du langage naturel, (2) un modèle d'embedding de texte général basé sur l'apprentissage contrastif, entraîné à l'aide d'un ensemble diversifié de jeux de données provenant de multiples sources pour répondre aux tâches de recherche d'information, et (3) des versions plus petites de ces modèles créées à l'aide de techniques de distillation de connaissances pour répondre aux applications soumises à des contraintes de latence ou de ressources. Nous avons également créé trois nouveaux jeux de données de référence scientifiques, à savoir CLIMATE-CHANGE-NER (reconnaissance d'entités), NASA-QA (question-réponse extractive) et NASA-IR (recherche d'information), afin d'accélérer la recherche dans ces domaines multidisciplinaires. Enfin, nous montrons que nos modèles surpassent à la fois les encodeurs généralistes (RoBERTa) et les encodeurs spécifiques au domaine existants (SciBERT) sur ces nouvelles tâches ainsi que sur les tâches de référence existantes dans les domaines d'intérêt.
English
Large language models (LLMs) trained on general domain corpora showed
remarkable results on natural language processing (NLP) tasks. However,
previous research demonstrated LLMs trained using domain-focused corpora
perform better on specialized tasks. Inspired by this pivotal insight, we
developed INDUS, a comprehensive suite of LLMs tailored for the Earth science,
biology, physics, heliophysics, planetary sciences and astrophysics domains and
trained using curated scientific corpora drawn from diverse data sources. The
suite of models include: (1) an encoder model trained using domain-specific
vocabulary and corpora to address natural language understanding tasks, (2) a
contrastive-learning-based general text embedding model trained using a diverse
set of datasets drawn from multiple sources to address information retrieval
tasks and (3) smaller versions of these models created using knowledge
distillation techniques to address applications which have latency or resource
constraints. We also created three new scientific benchmark datasets namely,
CLIMATE-CHANGE-NER (entity-recognition), NASA-QA (extractive QA) and NASA-IR
(IR) to accelerate research in these multi-disciplinary fields. Finally, we
show that our models outperform both general-purpose encoders (RoBERTa) and
existing domain-specific encoders (SciBERT) on these new tasks as well as
existing benchmark tasks in the domains of interest.Summary
AI-Generated Summary