ICE-GRT: Miglioramento del Contesto di Istruzione mediante Trasformatori a Rinforzo Generativo
ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers
January 4, 2024
Autori: Chen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun Zhou
cs.AI
Abstract
L'emergenza di modelli linguistici di grandi dimensioni (LLM) come ChatGPT e LLaMA incontra limitazioni nei compiti specifici di dominio, con questi modelli che spesso mancano di profondità e accuratezza in aree specializzate, e mostrano una diminuzione delle capacità generali quando vengono sottoposti a fine-tuning, in particolare nella capacità di analisi nei modelli di piccole dimensioni. Per affrontare queste lacune, introduciamo ICE-GRT, utilizzando l'apprendimento per rinforzo basato sul feedback umano (RLHF) fondato sull'ottimizzazione delle politiche prossimali (PPO), dimostrando una notevole capacità negli scenari di dominio senza compromettere le prestazioni nei compiti generali. La nostra esplorazione di ICE-GRT evidenzia la sua capacità di comprensione e ragionamento non solo nel generare risposte robuste, ma anche nel fornire analisi dettagliate delle ragioni alla base della risposta. Questa capacità rappresenta un progresso significativo oltre lo scopo dei modelli di fine-tuning supervisionato. Il successo di ICE-GRT dipende da diversi fattori cruciali, tra cui Dati Appropriati, Scalatura della Ricompensa, Controllo KL, Normalizzazione del Vantaggio, ecc. Il modello ICE-GRT mostra prestazioni all'avanguardia nei compiti specifici di dominio e in 12 compiti linguistici generali rispetto a LLM di dimensioni equivalenti e persino maggiori, evidenziando l'efficacia del nostro approccio. Forniamo un'analisi completa di ICE-GRT, sottolineando i significativi progressi che apporta al campo dei LLM.
English
The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA
encounter limitations in domain-specific tasks, with these models often lacking
depth and accuracy in specialized areas, and exhibiting a decrease in general
capabilities when fine-tuned, particularly analysis ability in small sized
models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement
Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization
(PPO), demonstrating remarkable ability in in-domain scenarios without
compromising general task performance. Our exploration of ICE-GRT highlights
its understanding and reasoning ability to not only generate robust answers but
also to provide detailed analyses of the reasons behind the answer. This
capability marks a significant progression beyond the scope of Supervised
Fine-Tuning models. The success of ICE-GRT is dependent on several crucial
factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage
Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in
domain-specific tasks and across 12 general Language tasks against equivalent
size and even larger size LLMs, highlighting the effectiveness of our approach.
We provide a comprehensive analysis of the ICE-GRT, underscoring the
significant advancements it brings to the field of LLM.