ICE-GRT: Instruktionskontextverbesserung durch generative, verstärkungsbasierte Transformer
ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers
January 4, 2024
Autoren: Chen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun Zhou
cs.AI
Zusammenfassung
Das Aufkommen von Large Language Models (LLMs) wie ChatGPT und LLaMA stößt bei domänenspezifischen Aufgaben an Grenzen, da diese Modelle oft an Tiefe und Genauigkeit in spezialisierten Bereichen mangeln und eine Abnahme der allgemeinen Fähigkeiten zeigen, insbesondere bei der Analysefähigkeit in kleineren Modellen, wenn sie feinabgestimmt werden. Um diese Lücken zu schließen, führen wir ICE-GRT ein, das Reinforcement Learning from Human Feedback (RLHF) auf der Grundlage von Proximal Policy Optimization (PPO) nutzt und bemerkenswerte Fähigkeiten in domänenspezifischen Szenarien zeigt, ohne die Leistung bei allgemeinen Aufgaben zu beeinträchtigen. Unsere Untersuchung von ICE-GRT hebt sein Verständnis und seine Fähigkeit zur logischen Schlussfolgerung hervor, nicht nur robuste Antworten zu generieren, sondern auch detaillierte Analysen der Gründe hinter der Antwort zu liefern. Diese Fähigkeit markiert einen bedeutenden Fortschritt über den Rahmen von Supervised Fine-Tuning-Modellen hinaus. Der Erfolg von ICE-GRT hängt von mehreren entscheidenden Faktoren ab, darunter angemessene Daten, Skalierung der Belohnungsgröße, KL-Kontrolle, Vorteilsnormalisierung usw. Das ICE-GRT-Modell zeigt state-of-the-art-Leistung bei domänenspezifischen Aufgaben und über 12 allgemeinen Sprachaufgaben im Vergleich zu LLMs gleicher und sogar größerer Größe, was die Wirksamkeit unseres Ansatzes unterstreicht. Wir bieten eine umfassende Analyse von ICE-GRT, die die bedeutenden Fortschritte hervorhebt, die es im Bereich der LLM bringt.
English
The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA
encounter limitations in domain-specific tasks, with these models often lacking
depth and accuracy in specialized areas, and exhibiting a decrease in general
capabilities when fine-tuned, particularly analysis ability in small sized
models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement
Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization
(PPO), demonstrating remarkable ability in in-domain scenarios without
compromising general task performance. Our exploration of ICE-GRT highlights
its understanding and reasoning ability to not only generate robust answers but
also to provide detailed analyses of the reasons behind the answer. This
capability marks a significant progression beyond the scope of Supervised
Fine-Tuning models. The success of ICE-GRT is dependent on several crucial
factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage
Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in
domain-specific tasks and across 12 general Language tasks against equivalent
size and even larger size LLMs, highlighting the effectiveness of our approach.
We provide a comprehensive analysis of the ICE-GRT, underscoring the
significant advancements it brings to the field of LLM.