ICE-GRT: Instructiecontextverbetering door Generatieve Versterking gebaseerde Transformers
ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers
January 4, 2024
Auteurs: Chen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun Zhou
cs.AI
Samenvatting
De opkomst van Large Language Models (LLM's) zoals ChatGPT en LLaMA stuit op beperkingen in domeinspecifieke taken, waarbij deze modellen vaak gebrek aan diepgang en nauwkeurigheid vertonen in gespecialiseerde gebieden, en een afname in algemene capaciteiten laten zien wanneer ze worden gefinetuned, met name de analysevaardigheid in kleinere modellen. Om deze tekortkomingen aan te pakken, introduceren we ICE-GRT, dat gebruikmaakt van Reinforcement Learning from Human Feedback (RLHF) gebaseerd op Proximal Policy Optimization (PPO), en opmerkelijke prestaties laat zien in domeinspecifieke scenario's zonder in te leveren op algemene taakprestaties. Onze verkenning van ICE-GRT benadrukt het begrip en de redeneervaardigheid om niet alleen robuuste antwoorden te genereren, maar ook gedetailleerde analyses te geven van de redenen achter het antwoord. Deze vaardigheid markeert een significante vooruitgang buiten het bereik van Supervised Fine-Tuning-modellen. Het succes van ICE-GRT hangt af van verschillende cruciale factoren, waaronder Geschikte Data, Reward Size Scaling, KL-Control, Advantage Normalization, enz. Het ICE-GRT-model vertoont state-of-the-art prestaties in domeinspecifieke taken en over 12 algemene taaltaken in vergelijking met LLM's van vergelijkbare en zelfs grotere omvang, wat de effectiviteit van onze aanpak onderstreept. We bieden een uitgebreide analyse van ICE-GRT, waarbij we de significante vooruitgang die het brengt op het gebied van LLM benadrukken.
English
The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA
encounter limitations in domain-specific tasks, with these models often lacking
depth and accuracy in specialized areas, and exhibiting a decrease in general
capabilities when fine-tuned, particularly analysis ability in small sized
models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement
Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization
(PPO), demonstrating remarkable ability in in-domain scenarios without
compromising general task performance. Our exploration of ICE-GRT highlights
its understanding and reasoning ability to not only generate robust answers but
also to provide detailed analyses of the reasons behind the answer. This
capability marks a significant progression beyond the scope of Supervised
Fine-Tuning models. The success of ICE-GRT is dependent on several crucial
factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage
Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in
domain-specific tasks and across 12 general Language tasks against equivalent
size and even larger size LLMs, highlighting the effectiveness of our approach.
We provide a comprehensive analysis of the ICE-GRT, underscoring the
significant advancements it brings to the field of LLM.