INDUS: 과학적 응용을 위한 효과적이고 효율적인 언어 모델
INDUS: Effective and Efficient Language Models for Scientific Applications
May 17, 2024
저자: Bishwaranjan Bhattacharjee, Aashka Trivedi, Masayasu Muraoka, Muthukumaran Ramasubramanian, Takuma Udagawa, Iksha Gurung, Rong Zhang, Bharath Dandala, Rahul Ramachandran, Manil Maskey, Kayleen Bugbee, Mike Little, Elizabeth Fancher, Lauren Sanders, Sylvain Costes, Sergi Blanco-Cuaresma, Kelly Lockhart, Thomas Allen, Felix Grazes, Megan Ansdel, Alberto Accomazzi, Yousef El-Kurdi, Davis Wertheimer, Birgit Pfitzmann, Cesar Berrospi Ramis, Michele Dolfi, Rafael Teixeira de Lima, Panos Vegenas, S. Karthik Mukkavilli, Peter Staar, Sanaz Vahidinia, Ryan McGranaghan, Armin Mehrabian, Tsendgar Lee
cs.AI
초록
일반 도메인 코퍼스로 훈련된 대형 언어 모델(LLMs)은 자연어 처리(NLP) 과제에서 주목할 만한 성과를 보여주었습니다. 그러나, 이전 연구에서는 특정 도메인에 초점을 맞춘 코퍼스를 사용해 훈련된 LLMs이 전문 과제에서 더 나은 성능을 발휘한다는 것을 입증했습니다. 이러한 중요한 통찰에 영감을 받아, 우리는 지구과학, 생물학, 물리학, 태양물리학, 행성과학 및 천체물리학 도메인에 맞춤화된 INDUS라는 포괄적인 LLMs 제품군을 개발했습니다. 이 모델들은 다양한 데이터 소스에서 선별된 과학 코퍼스를 사용해 훈련되었습니다. 이 제품군에는 다음이 포함됩니다: (1) 자연어 이해 과제를 해결하기 위해 도메인 특화 어휘와 코퍼스를 사용해 훈련된 인코더 모델, (2) 정보 검색 과제를 해결하기 위해 다양한 소스에서 추출된 데이터셋을 사용해 훈련된 대조 학습 기반 일반 텍스트 임베딩 모델, 그리고 (3) 지연 시간이나 자원 제약이 있는 애플리케이션을 해결하기 위해 지식 증류 기술을 사용해 생성된 이 모델들의 소형 버전. 또한, 우리는 CLIMATE-CHANGE-NER(개체 인식), NASA-QA(추출형 질의응답), NASA-IR(정보 검색)이라는 세 가지 새로운 과학 벤치마크 데이터셋을 만들어 이러한 다학제적 분야의 연구를 가속화했습니다. 마지막으로, 우리는 우리의 모델들이 새로운 과제뿐만 아니라 관심 도메인의 기존 벤치마크 과제에서도 일반 목적 인코더(RoBERTa)와 기존 도메인 특화 인코더(SciBERT)를 능가한다는 것을 보여줍니다.
English
Large language models (LLMs) trained on general domain corpora showed
remarkable results on natural language processing (NLP) tasks. However,
previous research demonstrated LLMs trained using domain-focused corpora
perform better on specialized tasks. Inspired by this pivotal insight, we
developed INDUS, a comprehensive suite of LLMs tailored for the Earth science,
biology, physics, heliophysics, planetary sciences and astrophysics domains and
trained using curated scientific corpora drawn from diverse data sources. The
suite of models include: (1) an encoder model trained using domain-specific
vocabulary and corpora to address natural language understanding tasks, (2) a
contrastive-learning-based general text embedding model trained using a diverse
set of datasets drawn from multiple sources to address information retrieval
tasks and (3) smaller versions of these models created using knowledge
distillation techniques to address applications which have latency or resource
constraints. We also created three new scientific benchmark datasets namely,
CLIMATE-CHANGE-NER (entity-recognition), NASA-QA (extractive QA) and NASA-IR
(IR) to accelerate research in these multi-disciplinary fields. Finally, we
show that our models outperform both general-purpose encoders (RoBERTa) and
existing domain-specific encoders (SciBERT) on these new tasks as well as
existing benchmark tasks in the domains of interest.Summary
AI-Generated Summary