ChatPaper.aiChatPaper

GeoGalactica: Научная большая языковая модель в области геонаук

GeoGalactica: A Scientific Large Language Model in Geoscience

December 31, 2023
Авторы: Zhouhan Lin, Cheng Deng, Le Zhou, Tianhang Zhang, Yi Xu, Yutong Xu, Zhongmou He, Yuanyuan Shi, Beiya Dai, Yunchong Song, Boyi Zeng, Qiyuan Chen, Tao Shi, Tianyu Huang, Yiwei Xu, Shu Wang, Luoyi Fu, Weinan Zhang, Junxian He, Chao Ma, Yunqiang Zhu, Xinbing Wang, Chenghu Zhou
cs.AI

Аннотация

Крупные языковые модели (LLM) достигли значительных успехов благодаря своей общей эрудиции и способности решать широкий спектр задач в области обработки естественного языка (NLP). Благодаря своим впечатляющим возможностям, LLM открыли перспективы для междисциплинарных применений, способствующих научным открытиям в конкретных областях с использованием искусственного интеллекта (AI for Science, AI4S). В то же время использование методов NLP в исследованиях и практике геонаук является обширным и сложным, начиная от извлечения знаний и классификации документов до вопросно-ответных систем и открытия новых знаний. В данной работе мы делаем первый шаг в направлении использования LLM для науки, применяя достаточно простой подход. Мы пытаемся специализировать LLM для геонаук, дополнительно предварительно обучая модель на большом объеме текстов из этой области, а также проводя контролируемую тонкую настройку (SFT) полученной модели с использованием собранного нами набора данных для настройки инструкций. Эти усилия привели к созданию модели GeoGalactica, состоящей из 30 миллиардов параметров. Насколько нам известно, это самая крупная языковая модель для области геонаук. Более конкретно, GeoGalactica была создана путем дополнительного предварительного обучения модели Galactica. Мы обучали GeoGalactica на корпусе текстов, связанных с геонауками, содержащем 65 миллиардов токенов, отобранных из обширных источников данных в рамках крупного научного проекта Deep-time Digital Earth (DDE), который является крупнейшим корпусом текстов, специфичных для геонаук. Затем мы провели тонкую настройку модели с использованием 1 миллиона пар данных для настройки инструкций, состоящих из вопросов, требующих профессиональных знаний в области геонаук для ответа. В этом техническом отчете мы подробно рассмотрим все аспекты GeoGalactica, включая сбор данных, очистку данных, выбор базовой модели, предварительное обучение, SFT и оценку. Мы открываем исходный код наших инструментов для курирования данных и контрольные точки GeoGalactica, полученные в течение первых 3/4 предварительного обучения.
English
Large language models (LLMs) have achieved huge success for their general knowledge and ability to solve a wide spectrum of tasks in natural language processing (NLP). Due to their impressive abilities, LLMs have shed light on potential inter-discipline applications to foster scientific discoveries of a specific domain by using artificial intelligence (AI for science, AI4S). In the meantime, utilizing NLP techniques in geoscience research and practice is wide and convoluted, contributing from knowledge extraction and document classification to question answering and knowledge discovery. In this work, we take the initial step to leverage LLM for science, through a rather straightforward approach. We try to specialize an LLM into geoscience, by further pre-training the model with a vast amount of texts in geoscience, as well as supervised fine-tuning (SFT) the resulting model with our custom collected instruction tuning dataset. These efforts result in a model GeoGalactica consisting of 30 billion parameters. To our best knowledge, it is the largest language model for the geoscience domain. More specifically, GeoGalactica is from further pre-training of Galactica. We train GeoGalactica over a geoscience-related text corpus containing 65 billion tokens curated from extensive data sources in the big science project Deep-time Digital Earth (DDE), preserving as the largest geoscience-specific text corpus. Then we fine-tune the model with 1 million pairs of instruction-tuning data consisting of questions that demand professional geoscience knowledge to answer. In this technical report, we will illustrate in detail all aspects of GeoGalactica, including data collection, data cleaning, base model selection, pre-training, SFT, and evaluation. We open-source our data curation tools and the checkpoints of GeoGalactica during the first 3/4 of pre-training.
PDF102December 15, 2024