INSTRUCTEVAL: 지시 튜닝 대형 언어 모델의 통합적 평가를 향하여
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models
June 7, 2023
저자: Yew Ken Chia, Pengfei Hong, Lidong Bing, Soujanya Poria
cs.AI
초록
명령어 튜닝된 대규모 언어 모델은 자연어 처리 분야를 혁신적으로 변화시켰으며, 대화형 에이전트와 같은 응용 분야에서 큰 잠재력을 보여주고 있습니다. GPT-4와 같은 이러한 모델은 언어를 숙달할 뿐만 아니라 수학, 코딩, 의학, 법률 등 다양한 분야에서 복잡한 과제를 해결할 수 있습니다. 그러나 이러한 모델의 인상적인 능력에도 불구하고, 많은 모델이 블랙박스 형태를 띠고 있으며 종합적인 평가 연구가 부족하기 때문에 그들의 전체 잠재력에 대한 포괄적인 이해가 여전히 부족합니다. 이러한 문제를 해결하기 위해, 우리는 명령어 튜닝된 대규모 언어 모델을 위해 특별히 설계된 더 포괄적인 평가 도구인 INSTRUCTEVAL을 소개합니다. 기존 연구와 달리, 우리의 평가는 문제 해결 능력, 글쓰기 능력, 그리고 인간 가치와의 정렬을 기반으로 모델을 엄격하게 평가합니다. 우리는 모델 성능에 영향을 미치는 다양한 요인, 즉 사전 학습 기반, 명령어 튜닝 데이터, 그리고 학습 방법 등을 종합적으로 분석합니다. 우리의 연구 결과는 명령어 데이터의 품질이 모델 성능을 확장하는 데 가장 중요한 요소임을 보여줍니다. 오픈소스 모델들은 인상적인 글쓰기 능력을 보여주지만, 문제 해결 및 정렬 측면에서는 상당한 개선의 여지가 있습니다. 우리는 오픈소스 커뮤니티의 모델 개발 속도에 고무되지만, 이러한 모델에 대한 주장을 뒷받침하기 위해 엄격한 평가의 필요성도 강조합니다. INSTRUCTEVAL을 통해, 우리는 명령어 튜닝된 모델에 대한 더 깊은 이해와 그들의 능력 발전을 촉진하고자 합니다. INSTRUCTEVAL은 https://github.com/declare-lab/instruct-eval에서 공개적으로 이용 가능합니다.
English
Instruction-tuned large language models have revolutionized natural language
processing and have shown great potential in applications such as
conversational agents. These models, such as GPT-4, can not only master
language but also solve complex tasks in areas like mathematics, coding,
medicine, and law. Despite their impressive capabilities, there is still a lack
of comprehensive understanding regarding their full potential, primarily due to
the black-box nature of many models and the absence of holistic evaluation
studies. To address these challenges, we present INSTRUCTEVAL, a more
comprehensive evaluation suite designed specifically for instruction-tuned
large language models. Unlike previous works, our evaluation involves a
rigorous assessment of models based on problem-solving, writing ability, and
alignment to human values. We take a holistic approach to analyze various
factors affecting model performance, including the pretraining foundation,
instruction-tuning data, and training methods. Our findings reveal that the
quality of instruction data is the most crucial factor in scaling model
performance. While open-source models demonstrate impressive writing abilities,
there is substantial room for improvement in problem-solving and alignment. We
are encouraged by the rapid development of models by the open-source community,
but we also highlight the need for rigorous evaluation to support claims made
about these models. Through INSTRUCTEVAL, we aim to foster a deeper
understanding of instruction-tuned models and advancements in their
capabilities. INSTRUCTEVAL is publicly available at
https://github.com/declare-lab/instruct-eval.