GeoGalactica: Een Wetenschappelijk Taalmodel op Grote Schaal in de Geowetenschappen
GeoGalactica: A Scientific Large Language Model in Geoscience
December 31, 2023
Auteurs: Zhouhan Lin, Cheng Deng, Le Zhou, Tianhang Zhang, Yi Xu, Yutong Xu, Zhongmou He, Yuanyuan Shi, Beiya Dai, Yunchong Song, Boyi Zeng, Qiyuan Chen, Tao Shi, Tianyu Huang, Yiwei Xu, Shu Wang, Luoyi Fu, Weinan Zhang, Junxian He, Chao Ma, Yunqiang Zhu, Xinbing Wang, Chenghu Zhou
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben enorm succes geboekt vanwege hun algemene kennis en het vermogen om een breed scala aan taken in natuurlijke taalverwerking (NLP) op te lossen. Vanwege hun indrukwekkende capaciteiten hebben LLMs licht geworpen op potentiële interdisciplinaire toepassingen om wetenschappelijke ontdekkingen in een specifiek domein te bevorderen door middel van kunstmatige intelligentie (AI for science, AI4S). Tegelijkertijd is het gebruik van NLP-technieken in geowetenschappelijk onderzoek en praktijk breed en complex, variërend van kennis extractie en documentclassificatie tot vraagbeantwoording en kennisontdekking. In dit werk zetten we de eerste stap om LLM voor wetenschap te benutten, via een vrij eenvoudige aanpak. We proberen een LLM te specialiseren in de geowetenschappen, door het model verder voor te trainen met een grote hoeveelheid teksten in de geowetenschappen, evenals door het resulterende model te verfijnen met behulp van ons zelf samengestelde instructieafstemmingsdataset (supervised fine-tuning, SFT). Deze inspanningen resulteren in een model genaamd GeoGalactica, bestaande uit 30 miljard parameters. Voor zover wij weten, is dit het grootste taalmodel voor het domein van de geowetenschappen. Meer specifiek is GeoGalactica het resultaat van verdere voor training van Galactica. We trainen GeoGalactica over een geowetenschappelijk tekstcorpus met 65 miljard tokens, samengesteld uit uitgebreide databronnen in het big science-project Deep-time Digital Earth (DDE), wat het grootste geowetenschappelijk-specifieke tekstcorpus vormt. Vervolgens verfijnen we het model met 1 miljoen paren van instructieafstemmingsdata bestaande uit vragen die professionele geowetenschappelijke kennis vereisen om te beantwoorden. In dit technische rapport zullen we alle aspecten van GeoGalactica gedetailleerd illustreren, inclusief dataverzameling, datareiniging, selectie van het basismodel, voor training, SFT en evaluatie. We maken onze data-curatietools en de checkpoints van GeoGalactica tijdens de eerste 3/4 van de voor training openbaar.
English
Large language models (LLMs) have achieved huge success for their general
knowledge and ability to solve a wide spectrum of tasks in natural language
processing (NLP). Due to their impressive abilities, LLMs have shed light on
potential inter-discipline applications to foster scientific discoveries of a
specific domain by using artificial intelligence (AI for science, AI4S). In the
meantime, utilizing NLP techniques in geoscience research and practice is wide
and convoluted, contributing from knowledge extraction and document
classification to question answering and knowledge discovery. In this work, we
take the initial step to leverage LLM for science, through a rather
straightforward approach. We try to specialize an LLM into geoscience, by
further pre-training the model with a vast amount of texts in geoscience, as
well as supervised fine-tuning (SFT) the resulting model with our custom
collected instruction tuning dataset. These efforts result in a model
GeoGalactica consisting of 30 billion parameters. To our best knowledge, it is
the largest language model for the geoscience domain. More specifically,
GeoGalactica is from further pre-training of Galactica. We train GeoGalactica
over a geoscience-related text corpus containing 65 billion tokens curated from
extensive data sources in the big science project Deep-time Digital Earth
(DDE), preserving as the largest geoscience-specific text corpus. Then we
fine-tune the model with 1 million pairs of instruction-tuning data consisting
of questions that demand professional geoscience knowledge to answer. In this
technical report, we will illustrate in detail all aspects of GeoGalactica,
including data collection, data cleaning, base model selection, pre-training,
SFT, and evaluation. We open-source our data curation tools and the checkpoints
of GeoGalactica during the first 3/4 of pre-training.