INDUS: 과학적 응용을 위한 효과적이고 효율적인 언어 모델INDUS: Effective and Efficient Language Models for Scientific
Applications
일반 도메인 코퍼스로 훈련된 대형 언어 모델(LLMs)은 자연어 처리(NLP) 과제에서 주목할 만한 성과를 보여주었습니다. 그러나, 이전 연구에서는 특정 도메인에 초점을 맞춘 코퍼스를 사용해 훈련된 LLMs이 전문 과제에서 더 나은 성능을 발휘한다는 것을 입증했습니다. 이러한 중요한 통찰에 영감을 받아, 우리는 지구과학, 생물학, 물리학, 태양물리학, 행성과학 및 천체물리학 도메인에 맞춤화된 INDUS라는 포괄적인 LLMs 제품군을 개발했습니다. 이 모델들은 다양한 데이터 소스에서 선별된 과학 코퍼스를 사용해 훈련되었습니다. 이 제품군에는 다음이 포함됩니다: (1) 자연어 이해 과제를 해결하기 위해 도메인 특화 어휘와 코퍼스를 사용해 훈련된 인코더 모델, (2) 정보 검색 과제를 해결하기 위해 다양한 소스에서 추출된 데이터셋을 사용해 훈련된 대조 학습 기반 일반 텍스트 임베딩 모델, 그리고 (3) 지연 시간이나 자원 제약이 있는 애플리케이션을 해결하기 위해 지식 증류 기술을 사용해 생성된 이 모델들의 소형 버전. 또한, 우리는 CLIMATE-CHANGE-NER(개체 인식), NASA-QA(추출형 질의응답), NASA-IR(정보 검색)이라는 세 가지 새로운 과학 벤치마크 데이터셋을 만들어 이러한 다학제적 분야의 연구를 가속화했습니다. 마지막으로, 우리는 우리의 모델들이 새로운 과제뿐만 아니라 관심 도메인의 기존 벤치마크 과제에서도 일반 목적 인코더(RoBERTa)와 기존 도메인 특화 인코더(SciBERT)를 능가한다는 것을 보여줍니다.