ChatPaper.aiChatPaper

ICE-GRT : Amélioration du Contexte d'Instruction par Transformers à Renforcement Générative

ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers

January 4, 2024
Auteurs: Chen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun Zhou
cs.AI

Résumé

L'émergence des modèles de langage de grande taille (LLMs) tels que ChatGPT et LLaMA rencontre des limites dans les tâches spécifiques à un domaine, ces modèles manquant souvent de profondeur et de précision dans les domaines spécialisés, et montrant une diminution de leurs capacités générales lorsqu'ils sont affinés, en particulier la capacité d'analyse dans les modèles de petite taille. Pour combler ces lacunes, nous introduisons ICE-GRT, utilisant l'apprentissage par renforcement à partir de retours humains (RLHF) basé sur l'optimisation de politique proximale (PPO), démontrant une capacité remarquable dans les scénarios intra-domaines sans compromettre la performance des tâches générales. Notre exploration d'ICE-GRT met en évidence sa capacité de compréhension et de raisonnement à non seulement générer des réponses robustes mais aussi à fournir des analyses détaillées des raisons derrière la réponse. Cette capacité marque une progression significative au-delà de la portée des modèles d'affinage supervisé. Le succès d'ICE-GRT dépend de plusieurs facteurs cruciaux, incluant des Données Appropriées, la Mise à l'échelle de la Récompense, le Contrôle KL, la Normalisation de l'Avantage, etc. Le modèle ICE-GRT présente des performances de pointe dans les tâches spécifiques à un domaine et à travers 12 tâches générales de langage contre des LLMs de taille équivalente et même plus grande, soulignant l'efficacité de notre approche. Nous fournissons une analyse complète d'ICE-GRT, mettant en avant les avancées significatives qu'il apporte au domaine des LLM.
English
The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA encounter limitations in domain-specific tasks, with these models often lacking depth and accuracy in specialized areas, and exhibiting a decrease in general capabilities when fine-tuned, particularly analysis ability in small sized models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization (PPO), demonstrating remarkable ability in in-domain scenarios without compromising general task performance. Our exploration of ICE-GRT highlights its understanding and reasoning ability to not only generate robust answers but also to provide detailed analyses of the reasons behind the answer. This capability marks a significant progression beyond the scope of Supervised Fine-Tuning models. The success of ICE-GRT is dependent on several crucial factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in domain-specific tasks and across 12 general Language tasks against equivalent size and even larger size LLMs, highlighting the effectiveness of our approach. We provide a comprehensive analysis of the ICE-GRT, underscoring the significant advancements it brings to the field of LLM.
PDF111December 15, 2024