INDUS : Modèles de langage efficaces et performants pour les applications scientifiquesINDUS: Effective and Efficient Language Models for Scientific
Applications
Les grands modèles de langage (LLMs) entraînés sur des corpus de domaine général ont montré des résultats remarquables dans les tâches de traitement du langage naturel (NLP). Cependant, des recherches antérieures ont démontré que les LLMs entraînés à l'aide de corpus centrés sur un domaine spécifique obtiennent de meilleures performances sur des tâches spécialisées. Inspirés par cette observation cruciale, nous avons développé INDUS, une suite complète de LLMs spécialement conçus pour les domaines des sciences de la Terre, de la biologie, de la physique, de l'héliophysique, des sciences planétaires et de l'astrophysique, et entraînés à l'aide de corpus scientifiques soigneusement sélectionnés provenant de diverses sources de données. Cette suite de modèles comprend : (1) un modèle encodeur entraîné à l'aide d'un vocabulaire et de corpus spécifiques au domaine pour traiter les tâches de compréhension du langage naturel, (2) un modèle d'embedding de texte général basé sur l'apprentissage contrastif, entraîné à l'aide d'un ensemble diversifié de jeux de données provenant de multiples sources pour répondre aux tâches de recherche d'information, et (3) des versions plus petites de ces modèles créées à l'aide de techniques de distillation de connaissances pour répondre aux applications soumises à des contraintes de latence ou de ressources. Nous avons également créé trois nouveaux jeux de données de référence scientifiques, à savoir CLIMATE-CHANGE-NER (reconnaissance d'entités), NASA-QA (question-réponse extractive) et NASA-IR (recherche d'information), afin d'accélérer la recherche dans ces domaines multidisciplinaires. Enfin, nous montrons que nos modèles surpassent à la fois les encodeurs généralistes (RoBERTa) et les encodeurs spécifiques au domaine existants (SciBERT) sur ces nouvelles tâches ainsi que sur les tâches de référence existantes dans les domaines d'intérêt.