ChatPaper.aiChatPaper

ICE-GRT: Mejora del Contexto de Instrucción mediante Transformadores Basados en Refuerzo Generativo

ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers

January 4, 2024
Autores: Chen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun Zhou
cs.AI

Resumen

El surgimiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como ChatGPT y LLaMA, enfrenta limitaciones en tareas específicas de dominio, ya que estos modelos a menudo carecen de profundidad y precisión en áreas especializadas, y muestran una disminución en sus capacidades generales cuando se ajustan, particularmente en la capacidad de análisis en modelos de tamaño reducido. Para abordar estas brechas, presentamos ICE-GRT, que utiliza Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) basado en Optimización de Políticas Proximales (PPO, por sus siglas en inglés), demostrando una capacidad notable en escenarios de dominio específico sin comprometer el rendimiento en tareas generales. Nuestra exploración de ICE-GRT resalta su capacidad de comprensión y razonamiento para no solo generar respuestas robustas, sino también proporcionar análisis detallados de las razones detrás de la respuesta. Esta capacidad marca un avance significativo más allá del alcance de los modelos de Ajuste Fino Supervisado. El éxito de ICE-GRT depende de varios factores cruciales, incluyendo Datos Apropiados, Escalado del Tamaño de la Recompensa, Control KL, Normalización de Ventajas, entre otros. El modelo ICE-GRT exhibe un rendimiento de vanguardia en tareas específicas de dominio y en 12 tareas generales de lenguaje en comparación con LLMs de tamaño equivalente e incluso mayor, destacando la efectividad de nuestro enfoque. Proporcionamos un análisis exhaustivo de ICE-GRT, subrayando los avances significativos que aporta al campo de los LLMs.
English
The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA encounter limitations in domain-specific tasks, with these models often lacking depth and accuracy in specialized areas, and exhibiting a decrease in general capabilities when fine-tuned, particularly analysis ability in small sized models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization (PPO), demonstrating remarkable ability in in-domain scenarios without compromising general task performance. Our exploration of ICE-GRT highlights its understanding and reasoning ability to not only generate robust answers but also to provide detailed analyses of the reasons behind the answer. This capability marks a significant progression beyond the scope of Supervised Fine-Tuning models. The success of ICE-GRT is dependent on several crucial factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in domain-specific tasks and across 12 general Language tasks against equivalent size and even larger size LLMs, highlighting the effectiveness of our approach. We provide a comprehensive analysis of the ICE-GRT, underscoring the significant advancements it brings to the field of LLM.
PDF111December 15, 2024