ChatPaper.aiChatPaper

Эффективный RLHF: сокращение использования памяти в PPO

Efficient RLHF: Reducing the Memory Usage of PPO

September 1, 2023
Авторы: Michael Santacroce, Yadong Lu, Han Yu, Yuanzhi Li, Yelong Shen
cs.AI

Аннотация

Обучение с подкреплением с использованием человеческой обратной связи (RLHF) произвело революцию в моделировании языка, согласовывая модели с предпочтениями человека. Однако этап обучения с подкреплением, метод оптимизации проксимальной политики (PPO), требует более чем в 3 раза больше памяти, чем тонкая настройка с учителем (SFT), что делает его недоступным для большинства практиков. Для решения этой проблемы мы представляем всесторонний анализ использования памяти, производительности и времени обучения для методов экономии памяти в PPO. Мы представляем Hydra-RLHF, сначала интегрируя модели SFT и вознаграждения, а затем динамически отключая LoRA во время обучения. Наши эксперименты показывают: 1. Использование LoRA в PPO снижает использование памяти до уровня ниже, чем у SFT, одновременно улучшая согласованность на четырех публичных бенчмарках, и 2. Hydra-PPO снижает задержку на образец для LoRA-PPO до 65%, сохраняя при этом его производительность. Наши результаты демонстрируют, что Hydra-PPO является простым и перспективным решением для более широкого использования RLHF.
English
Reinforcement Learning with Human Feedback (RLHF) has revolutionized language modeling by aligning models with human preferences. However, the RL stage, Proximal Policy Optimization (PPO), requires over 3x the memory of Supervised Fine-Tuning (SFT), making it infeasible to use for most practitioners. To address this issue, we present a comprehensive analysis the memory usage, performance, and training time of memory-savings techniques for PPO. We introduce Hydra-RLHF by first integrating the SFT and Reward models and then dynamically turning LoRA "off" during training. Our experiments show: 1. Using LoRA during PPO reduces its memory usage to be smaller than SFT while improving alignment across four public benchmarks, and 2. Hydra-PPO reduces the latency per sample of LoRA-PPO by up to 65% while maintaining its performance. Our results demonstrate that Hydra-PPO is a simple and promising solution for enabling more widespread usage of RLHF.
PDF150December 15, 2024