INDUS : Modèles de langage efficaces et performants pour les applications scientifiques

papers.abstract

Les grands modèles de langage (LLMs) entraînés sur des corpus de domaine général ont montré des résultats remarquables dans les tâches de traitement du langage naturel (NLP). Cependant, des recherches antérieures ont démontré que les LLMs entraînés à l'aide de corpus centrés sur un domaine spécifique obtiennent de meilleures performances sur des tâches spécialisées. Inspirés par cette observation cruciale, nous avons développé INDUS, une suite complète de LLMs spécialement conçus pour les domaines des sciences de la Terre, de la biologie, de la physique, de l'héliophysique, des sciences planétaires et de l'astrophysique, et entraînés à l'aide de corpus scientifiques soigneusement sélectionnés provenant de diverses sources de données. Cette suite de modèles comprend : (1) un modèle encodeur entraîné à l'aide d'un vocabulaire et de corpus spécifiques au domaine pour traiter les tâches de compréhension du langage naturel, (2) un modèle d'embedding de texte général basé sur l'apprentissage contrastif, entraîné à l'aide d'un ensemble diversifié de jeux de données provenant de multiples sources pour répondre aux tâches de recherche d'information, et (3) des versions plus petites de ces modèles créées à l'aide de techniques de distillation de connaissances pour répondre aux applications soumises à des contraintes de latence ou de ressources. Nous avons également créé trois nouveaux jeux de données de référence scientifiques, à savoir CLIMATE-CHANGE-NER (reconnaissance d'entités), NASA-QA (question-réponse extractive) et NASA-IR (recherche d'information), afin d'accélérer la recherche dans ces domaines multidisciplinaires. Enfin, nous montrons que nos modèles surpassent à la fois les encodeurs généralistes (RoBERTa) et les encodeurs spécifiques au domaine existants (SciBERT) sur ces nouvelles tâches ainsi que sur les tâches de référence existantes dans les domaines d'intérêt.

English

Large language models (LLMs) trained on general domain corpora showed remarkable results on natural language processing (NLP) tasks. However, previous research demonstrated LLMs trained using domain-focused corpora perform better on specialized tasks. Inspired by this pivotal insight, we developed INDUS, a comprehensive suite of LLMs tailored for the Earth science, biology, physics, heliophysics, planetary sciences and astrophysics domains and trained using curated scientific corpora drawn from diverse data sources. The suite of models include: (1) an encoder model trained using domain-specific vocabulary and corpora to address natural language understanding tasks, (2) a contrastive-learning-based general text embedding model trained using a diverse set of datasets drawn from multiple sources to address information retrieval tasks and (3) smaller versions of these models created using knowledge distillation techniques to address applications which have latency or resource constraints. We also created three new scientific benchmark datasets namely, CLIMATE-CHANGE-NER (entity-recognition), NASA-QA (extractive QA) and NASA-IR (IR) to accelerate research in these multi-disciplinary fields. Finally, we show that our models outperform both general-purpose encoders (RoBERTa) and existing domain-specific encoders (SciBERT) on these new tasks as well as existing benchmark tasks in the domains of interest.

INDUS : Modèles de langage efficaces et performants pour les applications scientifiques

INDUS: Effective and Efficient Language Models for Scientific Applications

papers.abstract

Support