GeoGalactica: Un Modelo de Lenguaje Científico a Gran Escala en Geociencias
GeoGalactica: A Scientific Large Language Model in Geoscience
December 31, 2023
Autores: Zhouhan Lin, Cheng Deng, Le Zhou, Tianhang Zhang, Yi Xu, Yutong Xu, Zhongmou He, Yuanyuan Shi, Beiya Dai, Yunchong Song, Boyi Zeng, Qiyuan Chen, Tao Shi, Tianyu Huang, Yiwei Xu, Shu Wang, Luoyi Fu, Weinan Zhang, Junxian He, Chao Ma, Yunqiang Zhu, Xinbing Wang, Chenghu Zhou
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han alcanzado un enorme éxito debido a su conocimiento general y su capacidad para resolver una amplia gama de tareas en el procesamiento del lenguaje natural (NLP). Gracias a sus impresionantes habilidades, los LLMs han arrojado luz sobre posibles aplicaciones interdisciplinarias para fomentar descubrimientos científicos en un dominio específico mediante el uso de inteligencia artificial (IA para la ciencia, AI4S). Mientras tanto, la utilización de técnicas de NLP en la investigación y práctica de las geociencias es amplia y compleja, contribuyendo desde la extracción de conocimiento y la clasificación de documentos hasta la respuesta a preguntas y el descubrimiento de conocimiento. En este trabajo, damos el primer paso para aprovechar los LLMs para la ciencia, a través de un enfoque bastante directo. Intentamos especializar un LLM en geociencias, mediante un pre-entrenamiento adicional del modelo con una gran cantidad de textos en geociencias, así como un ajuste fino supervisado (SFT) del modelo resultante con nuestro conjunto de datos de ajuste de instrucciones recopilado de manera personalizada. Estos esfuerzos dan como resultado un modelo llamado GeoGalactica, que consta de 30 mil millones de parámetros. Hasta donde sabemos, es el modelo de lenguaje más grande para el dominio de las geociencias. Más específicamente, GeoGalactica se deriva de un pre-entrenamiento adicional de Galactica. Entrenamos GeoGalactica sobre un corpus de textos relacionados con geociencias que contiene 65 mil millones de tokens, curados a partir de extensas fuentes de datos en el proyecto de gran ciencia Deep-time Digital Earth (DDE), conservándose como el corpus de texto más grande específico para geociencias. Luego, ajustamos el modelo con 1 millón de pares de datos de ajuste de instrucciones que consisten en preguntas que requieren conocimiento profesional en geociencias para ser respondidas. En este informe técnico, ilustraremos en detalle todos los aspectos de GeoGalactica, incluyendo la recopilación de datos, la limpieza de datos, la selección del modelo base, el pre-entrenamiento, el SFT y la evaluación. Hemos liberado nuestras herramientas de curación de datos y los puntos de control de GeoGalactica durante los primeros 3/4 del pre-entrenamiento.
English
Large language models (LLMs) have achieved huge success for their general
knowledge and ability to solve a wide spectrum of tasks in natural language
processing (NLP). Due to their impressive abilities, LLMs have shed light on
potential inter-discipline applications to foster scientific discoveries of a
specific domain by using artificial intelligence (AI for science, AI4S). In the
meantime, utilizing NLP techniques in geoscience research and practice is wide
and convoluted, contributing from knowledge extraction and document
classification to question answering and knowledge discovery. In this work, we
take the initial step to leverage LLM for science, through a rather
straightforward approach. We try to specialize an LLM into geoscience, by
further pre-training the model with a vast amount of texts in geoscience, as
well as supervised fine-tuning (SFT) the resulting model with our custom
collected instruction tuning dataset. These efforts result in a model
GeoGalactica consisting of 30 billion parameters. To our best knowledge, it is
the largest language model for the geoscience domain. More specifically,
GeoGalactica is from further pre-training of Galactica. We train GeoGalactica
over a geoscience-related text corpus containing 65 billion tokens curated from
extensive data sources in the big science project Deep-time Digital Earth
(DDE), preserving as the largest geoscience-specific text corpus. Then we
fine-tune the model with 1 million pairs of instruction-tuning data consisting
of questions that demand professional geoscience knowledge to answer. In this
technical report, we will illustrate in detail all aspects of GeoGalactica,
including data collection, data cleaning, base model selection, pre-training,
SFT, and evaluation. We open-source our data curation tools and the checkpoints
of GeoGalactica during the first 3/4 of pre-training.