ICE-GRT: Miglioramento del Contesto di Istruzione mediante Trasformatori a Rinforzo Generativo

Abstract

L'emergenza di modelli linguistici di grandi dimensioni (LLM) come ChatGPT e LLaMA incontra limitazioni nei compiti specifici di dominio, con questi modelli che spesso mancano di profondità e accuratezza in aree specializzate, e mostrano una diminuzione delle capacità generali quando vengono sottoposti a fine-tuning, in particolare nella capacità di analisi nei modelli di piccole dimensioni. Per affrontare queste lacune, introduciamo ICE-GRT, utilizzando l'apprendimento per rinforzo basato sul feedback umano (RLHF) fondato sull'ottimizzazione delle politiche prossimali (PPO), dimostrando una notevole capacità negli scenari di dominio senza compromettere le prestazioni nei compiti generali. La nostra esplorazione di ICE-GRT evidenzia la sua capacità di comprensione e ragionamento non solo nel generare risposte robuste, ma anche nel fornire analisi dettagliate delle ragioni alla base della risposta. Questa capacità rappresenta un progresso significativo oltre lo scopo dei modelli di fine-tuning supervisionato. Il successo di ICE-GRT dipende da diversi fattori cruciali, tra cui Dati Appropriati, Scalatura della Ricompensa, Controllo KL, Normalizzazione del Vantaggio, ecc. Il modello ICE-GRT mostra prestazioni all'avanguardia nei compiti specifici di dominio e in 12 compiti linguistici generali rispetto a LLM di dimensioni equivalenti e persino maggiori, evidenziando l'efficacia del nostro approccio. Forniamo un'analisi completa di ICE-GRT, sottolineando i significativi progressi che apporta al campo dei LLM.

English

The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA encounter limitations in domain-specific tasks, with these models often lacking depth and accuracy in specialized areas, and exhibiting a decrease in general capabilities when fine-tuned, particularly analysis ability in small sized models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization (PPO), demonstrating remarkable ability in in-domain scenarios without compromising general task performance. Our exploration of ICE-GRT highlights its understanding and reasoning ability to not only generate robust answers but also to provide detailed analyses of the reasons behind the answer. This capability marks a significant progression beyond the scope of Supervised Fine-Tuning models. The success of ICE-GRT is dependent on several crucial factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in domain-specific tasks and across 12 general Language tasks against equivalent size and even larger size LLMs, highlighting the effectiveness of our approach. We provide a comprehensive analysis of the ICE-GRT, underscoring the significant advancements it brings to the field of LLM.

ICE-GRT: Miglioramento del Contesto di Istruzione mediante Trasformatori a Rinforzo Generativo

ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers

Abstract

Support