GeoGalactica: Um Modelo de Linguagem de Grande Escala Científico em Geociências
GeoGalactica: A Scientific Large Language Model in Geoscience
December 31, 2023
Autores: Zhouhan Lin, Cheng Deng, Le Zhou, Tianhang Zhang, Yi Xu, Yutong Xu, Zhongmou He, Yuanyuan Shi, Beiya Dai, Yunchong Song, Boyi Zeng, Qiyuan Chen, Tao Shi, Tianyu Huang, Yiwei Xu, Shu Wang, Luoyi Fu, Weinan Zhang, Junxian He, Chao Ma, Yunqiang Zhu, Xinbing Wang, Chenghu Zhou
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm alcançado enorme sucesso devido ao seu conhecimento geral e capacidade de resolver uma ampla gama de tarefas em processamento de linguagem natural (NLP). Devido às suas impressionantes habilidades, os LLMs têm iluminado potenciais aplicações interdisciplinares para promover descobertas científicas em um domínio específico por meio do uso de inteligência artificial (IA para ciência, AI4S). Enquanto isso, a utilização de técnicas de NLP em pesquisas e práticas de geociências é ampla e complexa, contribuindo desde a extração de conhecimento e classificação de documentos até a resposta a perguntas e descoberta de conhecimento. Neste trabalho, damos o primeiro passo para aproveitar os LLMs para a ciência, por meio de uma abordagem bastante direta. Tentamos especializar um LLM em geociências, realizando um pré-treinamento adicional do modelo com uma grande quantidade de textos em geociências, bem como ajustando o modelo resultante com supervisão (SFT) usando nosso conjunto de dados de ajuste de instruções coletado de forma personalizada. Esses esforços resultam em um modelo chamado GeoGalactica, composto por 30 bilhões de parâmetros. Até onde sabemos, é o maior modelo de linguagem para o domínio das geociências. Mais especificamente, o GeoGalactica é derivado de um pré-treinamento adicional do Galactica. Treinamos o GeoGalactica em um corpus de textos relacionados a geociências contendo 65 bilhões de tokens, curados a partir de extensas fontes de dados no grande projeto científico Deep-time Digital Earth (DDE), preservando-se como o maior corpus de textos específicos para geociências. Em seguida, ajustamos o modelo com 1 milhão de pares de dados de ajuste de instruções, consistindo em perguntas que exigem conhecimento profissional em geociências para serem respondidas. Neste relatório técnico, ilustraremos em detalhes todos os aspectos do GeoGalactica, incluindo coleta de dados, limpeza de dados, seleção do modelo base, pré-treinamento, SFT e avaliação. Disponibilizamos publicamente nossas ferramentas de curadoria de dados e os checkpoints do GeoGalactica durante os primeiros 3/4 do pré-treinamento.
English
Large language models (LLMs) have achieved huge success for their general
knowledge and ability to solve a wide spectrum of tasks in natural language
processing (NLP). Due to their impressive abilities, LLMs have shed light on
potential inter-discipline applications to foster scientific discoveries of a
specific domain by using artificial intelligence (AI for science, AI4S). In the
meantime, utilizing NLP techniques in geoscience research and practice is wide
and convoluted, contributing from knowledge extraction and document
classification to question answering and knowledge discovery. In this work, we
take the initial step to leverage LLM for science, through a rather
straightforward approach. We try to specialize an LLM into geoscience, by
further pre-training the model with a vast amount of texts in geoscience, as
well as supervised fine-tuning (SFT) the resulting model with our custom
collected instruction tuning dataset. These efforts result in a model
GeoGalactica consisting of 30 billion parameters. To our best knowledge, it is
the largest language model for the geoscience domain. More specifically,
GeoGalactica is from further pre-training of Galactica. We train GeoGalactica
over a geoscience-related text corpus containing 65 billion tokens curated from
extensive data sources in the big science project Deep-time Digital Earth
(DDE), preserving as the largest geoscience-specific text corpus. Then we
fine-tune the model with 1 million pairs of instruction-tuning data consisting
of questions that demand professional geoscience knowledge to answer. In this
technical report, we will illustrate in detail all aspects of GeoGalactica,
including data collection, data cleaning, base model selection, pre-training,
SFT, and evaluation. We open-source our data curation tools and the checkpoints
of GeoGalactica during the first 3/4 of pre-training.