ChatPaper.aiChatPaper

ICE-GRT: Улучшение контекста инструкций с помощью трансформеров на основе генеративного подкрепления

ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers

January 4, 2024
Авторы: Chen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun Zhou
cs.AI

Аннотация

Появление крупных языковых моделей (LLM), таких как ChatGPT и LLaMA, сталкивается с ограничениями в задачах, специфичных для определённых областей, поскольку эти модели часто недостаточно глубоки и точны в специализированных сферах, а также демонстрируют снижение общих способностей при тонкой настройке, особенно аналитических возможностей в моделях небольшого размера. Для устранения этих пробелов мы представляем ICE-GRT, использующий обучение с подкреплением на основе обратной связи от человека (RLHF), основанное на оптимизации проксимальной политики (PPO), что демонстрирует выдающиеся способности в сценариях, специфичных для определённых областей, без ущерба для выполнения общих задач. Наше исследование ICE-GRT подчеркивает его способность к пониманию и рассуждению, позволяющую не только генерировать устойчивые ответы, но и предоставлять подробный анализ причин, лежащих в основе этих ответов. Эта способность знаменует значительный прогресс за рамками моделей с контролируемой тонкой настройкой. Успех ICE-GRT зависит от нескольких ключевых факторов, включая подходящие данные, масштабирование размера вознаграждения, KL-контроль, нормализацию преимуществ и т.д. Модель ICE-GRT демонстрирует передовые результаты в задачах, специфичных для определённых областей, и в 12 общих языковых задачах по сравнению с LLM эквивалентного и даже большего размера, что подчеркивает эффективность нашего подхода. Мы предоставляем всесторонний анализ ICE-GRT, подчеркивая значительные достижения, которые он привносит в область LLM.
English
The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA encounter limitations in domain-specific tasks, with these models often lacking depth and accuracy in specialized areas, and exhibiting a decrease in general capabilities when fine-tuned, particularly analysis ability in small sized models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization (PPO), demonstrating remarkable ability in in-domain scenarios without compromising general task performance. Our exploration of ICE-GRT highlights its understanding and reasoning ability to not only generate robust answers but also to provide detailed analyses of the reasons behind the answer. This capability marks a significant progression beyond the scope of Supervised Fine-Tuning models. The success of ICE-GRT is dependent on several crucial factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in domain-specific tasks and across 12 general Language tasks against equivalent size and even larger size LLMs, highlighting the effectiveness of our approach. We provide a comprehensive analysis of the ICE-GRT, underscoring the significant advancements it brings to the field of LLM.
PDF111December 15, 2024