샤이: 자산 관리를 위한 대규모 언어 모델
Shai: A large language model for asset management
December 21, 2023
저자: Zhongyang Guo, Guanran Jiang, Zhongdan Zhang, Peng Li, Zhefeng Wang, Yinchun Wang
cs.AI
초록
본 논문은 오픈소스 기반 모델을 토대로 자산 관리 산업을 위해 특별히 설계된 100억 수준의 대규모 언어 모델 "Shai"를 소개한다. 타겟팅된 코퍼스를 활용한 지속적인 사전 학습과 미세 조정을 통해, Shai는 해당 도메인과 관련된 작업에서 향상된 성능을 보이며, 기준 모델들을 능가한다. 우리의 연구는 전문 자격 시험, 맞춤형 작업, 개방형 질문 응답, 그리고 안전성 평가를 통합한 혁신적인 평가 프레임워크 개발을 포함하여, Shai의 능력을 종합적으로 평가한다. 또한, GPT-4와 같은 대규모 언어 모델을 자산 관리 성능 평가에 활용할 때의 도전과 함의를 논의하며, 자동화된 평가와 인간의 판단을 결합할 것을 제안한다. Shai의 개발은 금융 분야에서 100억 수준 대규모 언어 모델의 잠재력과 다양성을 보여주며, 뛰어난 성능과 적당한 계산 요구 사항을 통해, 산업 동료들이 유사한 노력에 도움을 줄 수 있는 실용적인 통찰과 방법론을 제공하고자 한다.
English
This paper introduces "Shai" a 10B level large language model specifically
designed for the asset management industry, built upon an open-source
foundational model. With continuous pre-training and fine-tuning using a
targeted corpus, Shai demonstrates enhanced performance in tasks relevant to
its domain, outperforming baseline models. Our research includes the
development of an innovative evaluation framework, which integrates
professional qualification exams, tailored tasks, open-ended question
answering, and safety assessments, to comprehensively assess Shai's
capabilities. Furthermore, we discuss the challenges and implications of
utilizing large language models like GPT-4 for performance assessment in asset
management, suggesting a combination of automated evaluation and human
judgment. Shai's development, showcasing the potential and versatility of
10B-level large language models in the financial sector with significant
performance and modest computational requirements, hopes to provide practical
insights and methodologies to assist industry peers in their similar endeavors.