INDUS: Эффективные и эффективные языковые модели для научных приложений
INDUS: Effective and Efficient Language Models for Scientific Applications
May 17, 2024
Авторы: Bishwaranjan Bhattacharjee, Aashka Trivedi, Masayasu Muraoka, Muthukumaran Ramasubramanian, Takuma Udagawa, Iksha Gurung, Rong Zhang, Bharath Dandala, Rahul Ramachandran, Manil Maskey, Kayleen Bugbee, Mike Little, Elizabeth Fancher, Lauren Sanders, Sylvain Costes, Sergi Blanco-Cuaresma, Kelly Lockhart, Thomas Allen, Felix Grazes, Megan Ansdel, Alberto Accomazzi, Yousef El-Kurdi, Davis Wertheimer, Birgit Pfitzmann, Cesar Berrospi Ramis, Michele Dolfi, Rafael Teixeira de Lima, Panos Vegenas, S. Karthik Mukkavilli, Peter Staar, Sanaz Vahidinia, Ryan McGranaghan, Armin Mehrabian, Tsendgar Lee
cs.AI
Аннотация
Большие языковые модели (LLM), обученные на корпусах общего назначения, показали
впечатляющие результаты на задачах обработки естественного языка (NLP). Однако
предыдущие исследования показали, что LLM, обученные с использованием корпусов, сфокусированных на определенной области, показывают лучшие результаты на специализированных задачах. Вдохновленные этим ключевым открытием, мы
разработали INDUS, комплексный набор LLM, настроенных для областей научной дисциплины Земли,
биологии, физики, гелиофизики, планетарных наук и астрофизики, и
обученных с использованием отобранных научных корпусов из различных источников данных. В
набор моделей входят: (1) модель кодировщика, обученная с использованием специфической для области лексики и корпусов для решения задач понимания естественного языка, (2) модель обобщенного встраивания текста на основе контрастного обучения, обученная с использованием разнообразного набора данных из различных источников для решения задач информационного поиска, и (3) уменьшенные версии этих моделей, созданные с использованием техник дистилляции знаний для решения задач, имеющих ограничения по времени выполнения или ресурсам. Мы также создали три новых научных набора данных для оценки, а именно, CLIMATE-CHANGE-NER (распознавание сущностей), NASA-QA (извлекающий вопросно-ответный) и NASA-IR (информационный поиск), чтобы ускорить исследования в этих междисциплинарных областях. Наконец, мы
показываем, что наши модели превосходят как общие кодировщики (RoBERTa), так и существующие областно-специфические кодировщики (SciBERT) на этих новых задачах, а также на существующих бенчмарках в областях интереса.
English
Large language models (LLMs) trained on general domain corpora showed
remarkable results on natural language processing (NLP) tasks. However,
previous research demonstrated LLMs trained using domain-focused corpora
perform better on specialized tasks. Inspired by this pivotal insight, we
developed INDUS, a comprehensive suite of LLMs tailored for the Earth science,
biology, physics, heliophysics, planetary sciences and astrophysics domains and
trained using curated scientific corpora drawn from diverse data sources. The
suite of models include: (1) an encoder model trained using domain-specific
vocabulary and corpora to address natural language understanding tasks, (2) a
contrastive-learning-based general text embedding model trained using a diverse
set of datasets drawn from multiple sources to address information retrieval
tasks and (3) smaller versions of these models created using knowledge
distillation techniques to address applications which have latency or resource
constraints. We also created three new scientific benchmark datasets namely,
CLIMATE-CHANGE-NER (entity-recognition), NASA-QA (extractive QA) and NASA-IR
(IR) to accelerate research in these multi-disciplinary fields. Finally, we
show that our models outperform both general-purpose encoders (RoBERTa) and
existing domain-specific encoders (SciBERT) on these new tasks as well as
existing benchmark tasks in the domains of interest.Summary
AI-Generated Summary