INDUS: Эффективные и эффективные языковые модели для научных приложенийINDUS: Effective and Efficient Language Models for Scientific
Applications
Большие языковые модели (LLM), обученные на корпусах общего назначения, показали впечатляющие результаты на задачах обработки естественного языка (NLP). Однако предыдущие исследования показали, что LLM, обученные с использованием корпусов, сфокусированных на определенной области, показывают лучшие результаты на специализированных задачах. Вдохновленные этим ключевым открытием, мы разработали INDUS, комплексный набор LLM, настроенных для областей научной дисциплины Земли, биологии, физики, гелиофизики, планетарных наук и астрофизики, и обученных с использованием отобранных научных корпусов из различных источников данных. В набор моделей входят: (1) модель кодировщика, обученная с использованием специфической для области лексики и корпусов для решения задач понимания естественного языка, (2) модель обобщенного встраивания текста на основе контрастного обучения, обученная с использованием разнообразного набора данных из различных источников для решения задач информационного поиска, и (3) уменьшенные версии этих моделей, созданные с использованием техник дистилляции знаний для решения задач, имеющих ограничения по времени выполнения или ресурсам. Мы также создали три новых научных набора данных для оценки, а именно, CLIMATE-CHANGE-NER (распознавание сущностей), NASA-QA (извлекающий вопросно-ответный) и NASA-IR (информационный поиск), чтобы ускорить исследования в этих междисциплинарных областях. Наконец, мы показываем, что наши модели превосходят как общие кодировщики (RoBERTa), так и существующие областно-специфические кодировщики (SciBERT) на этих новых задачах, а также на существующих бенчмарках в областях интереса.