GeoGalactica: Ein wissenschaftliches Großsprachmodell für die Geowissenschaften
GeoGalactica: A Scientific Large Language Model in Geoscience
December 31, 2023
Autoren: Zhouhan Lin, Cheng Deng, Le Zhou, Tianhang Zhang, Yi Xu, Yutong Xu, Zhongmou He, Yuanyuan Shi, Beiya Dai, Yunchong Song, Boyi Zeng, Qiyuan Chen, Tao Shi, Tianyu Huang, Yiwei Xu, Shu Wang, Luoyi Fu, Weinan Zhang, Junxian He, Chao Ma, Yunqiang Zhu, Xinbing Wang, Chenghu Zhou
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben aufgrund ihres allgemeinen Wissens und ihrer Fähigkeit, ein breites Spektrum von Aufgaben in der natürlichen Sprachverarbeitung (NLP) zu lösen, großen Erfolg erzielt. Aufgrund ihrer beeindruckenden Fähigkeiten haben LLMs potenzielle interdisziplinäre Anwendungen beleuchtet, um wissenschaftliche Entdeckungen in einem spezifischen Bereich durch den Einsatz von künstlicher Intelligenz (KI für die Wissenschaft, AI4S) zu fördern. Gleichzeitig ist die Nutzung von NLP-Techniken in der Geowissenschaftsforschung und -praxis weitreichend und komplex, wobei sie von der Wissensextraktion und Dokumentenklassifizierung bis hin zur Fragebeantwortung und Wissensentdeckung beiträgt. In dieser Arbeit unternehmen wir den ersten Schritt, um LLMs für die Wissenschaft zu nutzen, und zwar durch einen eher geradlinigen Ansatz. Wir versuchen, ein LLM auf die Geowissenschaften zu spezialisieren, indem wir das Modell mit einer großen Menge an geowissenschaftlichen Texten weiter vortrainieren sowie das resultierende Modell mit unserem selbst gesammelten Instruktionsfeinabstimmungsdatensatz (SFT) feinabstimmen. Diese Bemühungen führen zu einem Modell namens GeoGalactica, das aus 30 Milliarden Parametern besteht. Nach unserem besten Wissen ist es das größte Sprachmodell für den Bereich der Geowissenschaften. Genauer gesagt, GeoGalactica entsteht aus dem weiteren Vortraining von Galactica. Wir trainieren GeoGalactica über einen geowissenschaftlichen Textkorpus, der 65 Milliarden Tokens umfasst und aus umfangreichen Datenquellen des Big-Science-Projekts Deep-time Digital Earth (DDE) kuratiert wurde, wobei er als der größte geowissenschaftsspezifische Textkorpus erhalten bleibt. Anschließend feinabstimmen wir das Modell mit 1 Million Paaren von Instruktionsfeinabstimmungsdaten, die aus Fragen bestehen, die professionelles geowissenschaftliches Wissen zur Beantwortung erfordern. In diesem technischen Bericht werden wir alle Aspekte von GeoGalactica detailliert darlegen, einschließlich Datensammlung, Datenbereinigung, Basismodellauswahl, Vortraining, SFT und Evaluation. Wir stellen unsere Datenkuratierungstools und die Checkpoints von GeoGalactica während der ersten 3/4 des Vortrainings als Open Source zur Verfügung.
English
Large language models (LLMs) have achieved huge success for their general
knowledge and ability to solve a wide spectrum of tasks in natural language
processing (NLP). Due to their impressive abilities, LLMs have shed light on
potential inter-discipline applications to foster scientific discoveries of a
specific domain by using artificial intelligence (AI for science, AI4S). In the
meantime, utilizing NLP techniques in geoscience research and practice is wide
and convoluted, contributing from knowledge extraction and document
classification to question answering and knowledge discovery. In this work, we
take the initial step to leverage LLM for science, through a rather
straightforward approach. We try to specialize an LLM into geoscience, by
further pre-training the model with a vast amount of texts in geoscience, as
well as supervised fine-tuning (SFT) the resulting model with our custom
collected instruction tuning dataset. These efforts result in a model
GeoGalactica consisting of 30 billion parameters. To our best knowledge, it is
the largest language model for the geoscience domain. More specifically,
GeoGalactica is from further pre-training of Galactica. We train GeoGalactica
over a geoscience-related text corpus containing 65 billion tokens curated from
extensive data sources in the big science project Deep-time Digital Earth
(DDE), preserving as the largest geoscience-specific text corpus. Then we
fine-tune the model with 1 million pairs of instruction-tuning data consisting
of questions that demand professional geoscience knowledge to answer. In this
technical report, we will illustrate in detail all aspects of GeoGalactica,
including data collection, data cleaning, base model selection, pre-training,
SFT, and evaluation. We open-source our data curation tools and the checkpoints
of GeoGalactica during the first 3/4 of pre-training.