GeoGalactica: Un Modello Linguistico Scientifico su Larga Scala per le Geoscienze

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto un enorme successo grazie alla loro conoscenza generale e alla capacità di risolvere un ampio spettro di compiti nel campo dell'elaborazione del linguaggio naturale (NLP). Grazie alle loro impressionanti capacità, gli LLM hanno gettato luce su potenziali applicazioni interdisciplinari per favorire scoperte scientifiche in un dominio specifico attraverso l'uso dell'intelligenza artificiale (AI per la scienza, AI4S). Nel frattempo, l'utilizzo delle tecniche NLP nella ricerca e nella pratica delle geoscienze è ampio e complesso, contribuendo dall'estrazione di conoscenze e dalla classificazione di documenti al question answering e alla scoperta di conoscenze. In questo lavoro, compiamo il primo passo per sfruttare un LLM per la scienza, attraverso un approccio piuttosto diretto. Cerchiamo di specializzare un LLM nelle geoscienze, effettuando un ulteriore pre-addestramento del modello con una vasta quantità di testi di geoscienze, oltre a un fine-tuning supervisionato (SFT) del modello risultante con il nostro dataset personalizzato di istruzioni. Questi sforzi hanno portato alla creazione di un modello, GeoGalactica, composto da 30 miliardi di parametri. Per quanto ne sappiamo, si tratta del più grande modello linguistico per il dominio delle geoscienze. Più specificamente, GeoGalactica deriva da un ulteriore pre-addestramento di Galactica. Addestriamo GeoGalactica su un corpus di testi relativi alle geoscienze contenente 65 miliardi di token, curato da fonti di dati estensive del progetto di big science Deep-time Digital Earth (DDE), che rappresenta il più grande corpus di testi specifico per le geoscienze. Successivamente, effettuiamo il fine-tuning del modello con 1 milione di coppie di dati di istruzioni, composte da domande che richiedono conoscenze professionali di geoscienze per essere risolte. In questo rapporto tecnico, illustreremo in dettaglio tutti gli aspetti di GeoGalactica, inclusi la raccolta dei dati, la pulizia dei dati, la selezione del modello di base, il pre-addestramento, l'SFT e la valutazione. Rendiamo open-source i nostri strumenti di curatela dei dati e i checkpoint di GeoGalactica durante i primi 3/4 del pre-addestramento.

English

Large language models (LLMs) have achieved huge success for their general knowledge and ability to solve a wide spectrum of tasks in natural language processing (NLP). Due to their impressive abilities, LLMs have shed light on potential inter-discipline applications to foster scientific discoveries of a specific domain by using artificial intelligence (AI for science, AI4S). In the meantime, utilizing NLP techniques in geoscience research and practice is wide and convoluted, contributing from knowledge extraction and document classification to question answering and knowledge discovery. In this work, we take the initial step to leverage LLM for science, through a rather straightforward approach. We try to specialize an LLM into geoscience, by further pre-training the model with a vast amount of texts in geoscience, as well as supervised fine-tuning (SFT) the resulting model with our custom collected instruction tuning dataset. These efforts result in a model GeoGalactica consisting of 30 billion parameters. To our best knowledge, it is the largest language model for the geoscience domain. More specifically, GeoGalactica is from further pre-training of Galactica. We train GeoGalactica over a geoscience-related text corpus containing 65 billion tokens curated from extensive data sources in the big science project Deep-time Digital Earth (DDE), preserving as the largest geoscience-specific text corpus. Then we fine-tune the model with 1 million pairs of instruction-tuning data consisting of questions that demand professional geoscience knowledge to answer. In this technical report, we will illustrate in detail all aspects of GeoGalactica, including data collection, data cleaning, base model selection, pre-training, SFT, and evaluation. We open-source our data curation tools and the checkpoints of GeoGalactica during the first 3/4 of pre-training.

GeoGalactica: Un Modello Linguistico Scientifico su Larga Scala per le Geoscienze

GeoGalactica: A Scientific Large Language Model in Geoscience

Abstract

Support