ICE-GRT: Aprimoramento de Contexto de Instrução por Transformadores Baseados em Reforço Generativo
ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers
January 4, 2024
Autores: Chen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun Zhou
cs.AI
Resumo
O surgimento de Modelos de Linguagem de Grande Escala (LLMs), como ChatGPT e LLaMA, enfrenta limitações em tarefas específicas de domínio, com esses modelos frequentemente carecendo de profundidade e precisão em áreas especializadas, e exibindo uma diminuição nas capacidades gerais quando ajustados, particularmente na habilidade de análise em modelos de pequeno porte. Para abordar essas lacunas, introduzimos o ICE-GRT, utilizando Aprendizado por Reforço com Feedback Humano (RLHF) baseado em Otimização de Política Proximal (PPO), demonstrando uma habilidade notável em cenários de domínio específico sem comprometer o desempenho em tarefas gerais. Nossa exploração do ICE-GRT destaca sua capacidade de compreensão e raciocínio, não apenas para gerar respostas robustas, mas também para fornecer análises detalhadas das razões por trás da resposta. Essa capacidade marca um progresso significativo além do escopo dos modelos de Ajuste Fino Supervisionado. O sucesso do ICE-GRT depende de vários fatores cruciais, incluindo Dados Apropriados, Escalonamento do Tamanho da Recompensa, Controle KL, Normalização de Vantagem, entre outros. O modelo ICE-GRT exibe desempenho de ponta em tarefas específicas de domínio e em 12 tarefas gerais de Linguagem, comparado a LLMs de tamanho equivalente e até maiores, destacando a eficácia de nossa abordagem. Fornecemos uma análise abrangente do ICE-GRT, ressaltando os avanços significativos que ele traz para o campo dos LLMs.
English
The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA
encounter limitations in domain-specific tasks, with these models often lacking
depth and accuracy in specialized areas, and exhibiting a decrease in general
capabilities when fine-tuned, particularly analysis ability in small sized
models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement
Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization
(PPO), demonstrating remarkable ability in in-domain scenarios without
compromising general task performance. Our exploration of ICE-GRT highlights
its understanding and reasoning ability to not only generate robust answers but
also to provide detailed analyses of the reasons behind the answer. This
capability marks a significant progression beyond the scope of Supervised
Fine-Tuning models. The success of ICE-GRT is dependent on several crucial
factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage
Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in
domain-specific tasks and across 12 general Language tasks against equivalent
size and even larger size LLMs, highlighting the effectiveness of our approach.
We provide a comprehensive analysis of the ICE-GRT, underscoring the
significant advancements it brings to the field of LLM.