ICE-GRT: 生成的強化学習に基づくTransformerによる指示文脈拡張
ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers
January 4, 2024
著者: Chen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun Zhou
cs.AI
要旨
ChatGPTやLLaMAなどの大規模言語モデル(LLM)の登場は、ドメイン固有のタスクにおいて限界に直面しており、これらのモデルは専門領域での深みや正確性に欠け、特に小規模モデルでは分析能力が低下する傾向が見られます。これらの課題に対処するため、我々はICE-GRTを導入し、Proximal Policy Optimization(PPO)に基づく人間のフィードバックからの強化学習(RLHF)を活用することで、ドメイン内シナリオで優れた能力を発揮しつつ、一般的なタスク性能を損なわないことを実証しました。ICE-GRTの探求を通じて、堅牢な回答を生成するだけでなく、その回答の背後にある理由を詳細に分析する理解力と推論能力が明らかになりました。この能力は、教師ありファインチューニングモデルの範囲を超えた重要な進展を示しています。ICE-GRTの成功は、適切なデータ、報酬サイズのスケーリング、KL制御、アドバンテージ正規化など、いくつかの重要な要素に依存しています。ICE-GRTモデルは、ドメイン固有のタスクおよび12の一般的な言語タスクにおいて、同等サイズおよびそれ以上のサイズのLLMに対して最先端の性能を示し、我々のアプローチの有効性を強調しています。我々はICE-GRTの包括的な分析を提供し、LLM分野にもたらす重要な進展を明らかにします。
English
The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA
encounter limitations in domain-specific tasks, with these models often lacking
depth and accuracy in specialized areas, and exhibiting a decrease in general
capabilities when fine-tuned, particularly analysis ability in small sized
models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement
Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization
(PPO), demonstrating remarkable ability in in-domain scenarios without
compromising general task performance. Our exploration of ICE-GRT highlights
its understanding and reasoning ability to not only generate robust answers but
also to provide detailed analyses of the reasons behind the answer. This
capability marks a significant progression beyond the scope of Supervised
Fine-Tuning models. The success of ICE-GRT is dependent on several crucial
factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage
Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in
domain-specific tasks and across 12 general Language tasks against equivalent
size and even larger size LLMs, highlighting the effectiveness of our approach.
We provide a comprehensive analysis of the ICE-GRT, underscoring the
significant advancements it brings to the field of LLM.