ICE-GRT: 생성적 강화 학습 기반 변환기를 통한 명령어 문맥 강화
ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers
January 4, 2024
저자: Chen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun Zhou
cs.AI
초록
ChatGPT와 LLaMA와 같은 대형 언어 모델(LLMs)의 등장은 도메인 특화 작업에서 한계에 부딪히며, 이러한 모델들은 특수 분야에서 깊이와 정확성이 부족하고, 특히 소규모 모델에서 분석 능력이 저하되는 경향을 보입니다. 이러한 격차를 해결하기 위해, 우리는 인간 피드백을 통한 강화 학습(RLHF)을 근간으로 한 Proximal Policy Optimization(PPO)을 활용한 ICE-GRT를 소개합니다. ICE-GRT는 일반 작업 성능을 저하시키지 않으면서도 도메인 내 시나리오에서 뛰어난 능력을 보여줍니다. ICE-GRT에 대한 탐구는 강력한 답변을 생성할 뿐만 아니라 답변의 이유에 대한 상세한 분석을 제공하는 이해 및 추론 능력을 강조하며, 이는 지도 미세 조정 모델의 범위를 넘어서는 중요한 진전을 나타냅니다. ICE-GRT의 성공은 적절한 데이터, 보상 크기 조정, KL 제어, 이점 정규화 등 여러 중요한 요소에 달려 있습니다. ICE-GRT 모델은 동일 규모 및 더 큰 규모의 LLMs에 비해 도메인 특화 작업과 12가지 일반 언어 작업에서 최첨단 성능을 보여주며, 우리의 접근 방식의 효과를 입증합니다. 우리는 ICE-GRT에 대한 포괄적인 분석을 제공하여, LLM 분야에 가져온 중요한 발전을 강조합니다.
English
The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA
encounter limitations in domain-specific tasks, with these models often lacking
depth and accuracy in specialized areas, and exhibiting a decrease in general
capabilities when fine-tuned, particularly analysis ability in small sized
models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement
Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization
(PPO), demonstrating remarkable ability in in-domain scenarios without
compromising general task performance. Our exploration of ICE-GRT highlights
its understanding and reasoning ability to not only generate robust answers but
also to provide detailed analyses of the reasons behind the answer. This
capability marks a significant progression beyond the scope of Supervised
Fine-Tuning models. The success of ICE-GRT is dependent on several crucial
factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage
Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in
domain-specific tasks and across 12 general Language tasks against equivalent
size and even larger size LLMs, highlighting the effectiveness of our approach.
We provide a comprehensive analysis of the ICE-GRT, underscoring the
significant advancements it brings to the field of LLM.