Эффективный RLHF: сокращение использования памяти в PPO
Efficient RLHF: Reducing the Memory Usage of PPO
September 1, 2023
Авторы: Michael Santacroce, Yadong Lu, Han Yu, Yuanzhi Li, Yelong Shen
cs.AI
Аннотация
Обучение с подкреплением с использованием человеческой обратной связи (RLHF) произвело революцию в моделировании языка, согласовывая модели с предпочтениями человека. Однако этап обучения с подкреплением, метод оптимизации проксимальной политики (PPO), требует более чем в 3 раза больше памяти, чем тонкая настройка с учителем (SFT), что делает его недоступным для большинства практиков. Для решения этой проблемы мы представляем всесторонний анализ использования памяти, производительности и времени обучения для методов экономии памяти в PPO. Мы представляем Hydra-RLHF, сначала интегрируя модели SFT и вознаграждения, а затем динамически отключая LoRA во время обучения. Наши эксперименты показывают: 1. Использование LoRA в PPO снижает использование памяти до уровня ниже, чем у SFT, одновременно улучшая согласованность на четырех публичных бенчмарках, и 2. Hydra-PPO снижает задержку на образец для LoRA-PPO до 65%, сохраняя при этом его производительность. Наши результаты демонстрируют, что Hydra-PPO является простым и перспективным решением для более широкого использования RLHF.
English
Reinforcement Learning with Human Feedback (RLHF) has revolutionized language
modeling by aligning models with human preferences. However, the RL stage,
Proximal Policy Optimization (PPO), requires over 3x the memory of Supervised
Fine-Tuning (SFT), making it infeasible to use for most practitioners. To
address this issue, we present a comprehensive analysis the memory usage,
performance, and training time of memory-savings techniques for PPO. We
introduce Hydra-RLHF by first integrating the SFT and Reward models and then
dynamically turning LoRA "off" during training. Our experiments show: 1. Using
LoRA during PPO reduces its memory usage to be smaller than SFT while improving
alignment across four public benchmarks, and 2. Hydra-PPO reduces the latency
per sample of LoRA-PPO by up to 65% while maintaining its performance. Our
results demonstrate that Hydra-PPO is a simple and promising solution for
enabling more widespread usage of RLHF.