ChatPaper.aiChatPaper

GeoGalactica : Un modèle de langage scientifique à grande échelle en géosciences

GeoGalactica: A Scientific Large Language Model in Geoscience

December 31, 2023
Auteurs: Zhouhan Lin, Cheng Deng, Le Zhou, Tianhang Zhang, Yi Xu, Yutong Xu, Zhongmou He, Yuanyuan Shi, Beiya Dai, Yunchong Song, Boyi Zeng, Qiyuan Chen, Tao Shi, Tianyu Huang, Yiwei Xu, Shu Wang, Luoyi Fu, Weinan Zhang, Junxian He, Chao Ma, Yunqiang Zhu, Xinbing Wang, Chenghu Zhou
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont connu un immense succès grâce à leur connaissance générale et à leur capacité à résoudre un large éventail de tâches en traitement du langage naturel (NLP). En raison de leurs impressionnantes capacités, les LLMs ont mis en lumière des applications interdisciplinaires potentielles pour favoriser les découvertes scientifiques dans un domaine spécifique en utilisant l'intelligence artificielle (IA pour la science, AI4S). Parallèlement, l'utilisation des techniques de NLP dans la recherche et la pratique en géosciences est vaste et complexe, allant de l'extraction de connaissances et de la classification de documents à la réponse à des questions et à la découverte de connaissances. Dans ce travail, nous franchissons une première étape en exploitant un LLM pour la science, à travers une approche plutôt directe. Nous tentons de spécialiser un LLM dans le domaine des géosciences, en effectuant un pré-entraînement supplémentaire du modèle avec une grande quantité de textes en géosciences, ainsi qu'en affinant le modèle résultant par apprentissage supervisé (SFT) avec notre ensemble de données personnalisé pour l'ajustement des instructions. Ces efforts aboutissent à un modèle, GeoGalactica, composé de 30 milliards de paramètres. À notre connaissance, il s'agit du plus grand modèle de langage pour le domaine des géosciences. Plus précisément, GeoGalactica est issu d'un pré-entraînement supplémentaire de Galactica. Nous entraînons GeoGalactica sur un corpus de textes liés aux géosciences contenant 65 milliards de tokens, compilés à partir de sources de données étendues dans le projet de grande science Deep-time Digital Earth (DDE), constituant ainsi le plus grand corpus de textes spécifique aux géosciences. Ensuite, nous affinons le modèle avec 1 million de paires de données d'ajustement des instructions, composées de questions nécessitant des connaissances professionnelles en géosciences pour y répondre. Dans ce rapport technique, nous illustrerons en détail tous les aspects de GeoGalactica, y compris la collecte de données, le nettoyage des données, la sélection du modèle de base, le pré-entraînement, le SFT et l'évaluation. Nous mettons en open source nos outils de curation de données et les points de contrôle de GeoGalactica au cours des trois premiers quarts du pré-entraînement.
English
Large language models (LLMs) have achieved huge success for their general knowledge and ability to solve a wide spectrum of tasks in natural language processing (NLP). Due to their impressive abilities, LLMs have shed light on potential inter-discipline applications to foster scientific discoveries of a specific domain by using artificial intelligence (AI for science, AI4S). In the meantime, utilizing NLP techniques in geoscience research and practice is wide and convoluted, contributing from knowledge extraction and document classification to question answering and knowledge discovery. In this work, we take the initial step to leverage LLM for science, through a rather straightforward approach. We try to specialize an LLM into geoscience, by further pre-training the model with a vast amount of texts in geoscience, as well as supervised fine-tuning (SFT) the resulting model with our custom collected instruction tuning dataset. These efforts result in a model GeoGalactica consisting of 30 billion parameters. To our best knowledge, it is the largest language model for the geoscience domain. More specifically, GeoGalactica is from further pre-training of Galactica. We train GeoGalactica over a geoscience-related text corpus containing 65 billion tokens curated from extensive data sources in the big science project Deep-time Digital Earth (DDE), preserving as the largest geoscience-specific text corpus. Then we fine-tune the model with 1 million pairs of instruction-tuning data consisting of questions that demand professional geoscience knowledge to answer. In this technical report, we will illustrate in detail all aspects of GeoGalactica, including data collection, data cleaning, base model selection, pre-training, SFT, and evaluation. We open-source our data curation tools and the checkpoints of GeoGalactica during the first 3/4 of pre-training.
PDF102December 15, 2024