Асинхронное обучение с подкреплением с высокой энтропией: Более быстрое и эффективное вне политики обучение с подкреплением для языковых моделей

Аннотация

Доминирующая парадигма для RLHF - это онлайн и он-политика RL: синхронная генерация с использованием политики большой языковой модели (LLM), разметка с помощью модели вознаграждения и обучение с использованием обратной связи по собственным выходам LLM. Хотя это эффективно, эта парадигма вычислительно неэффективна. Вдохновленные классической литературой по глубокому RL, мы предлагаем разделение генерации и обучения в RLHF. Это позволяет асинхронную генерацию новых образцов, одновременно обучаясь на старых образцах, что приводит к более быстрому обучению и оптимальному использованию вычислительных ресурсов. Однако асинхронное обучение основано на малоисследованном режиме, онлайн, но вне политики RLHF: обучение на образцах из предыдущих итераций нашей модели. Чтобы понять вызовы в этом режиме, мы исследуем фундаментальный вопрос: насколько мы можем терпеть отклонение от политики для ускорения обучения, сохраняя при этом производительность? Среди нескольких алгоритмов RLHF, которые мы тестировали, мы обнаружили, что онлайн DPO наиболее устойчив к данным вне политики, и устойчивость увеличивается с масштабом модели политики. Мы изучаем дополнительные оптимизации вычислений для асинхронного RLHF, но обнаруживаем, что они сопровождаются затратами на производительность, возникает компромисс. Наконец, мы проверяем масштабируемость асинхронного RLHF, обучая LLaMA 3.1 8B на задаче следования инструкциям на 40% быстрее, чем синхронный запуск, сохраняя при этом конечную производительность.

English

The dominant paradigm for RLHF is online and on-policy RL: synchronously generating from the large language model (LLM) policy, labelling with a reward model, and learning using feedback on the LLM's own outputs. While performant, this paradigm is computationally inefficient. Inspired by classical deep RL literature, we propose separating generation and learning in RLHF. This enables asynchronous generation of new samples while simultaneously training on old samples, leading to faster training and more compute-optimal scaling. However, asynchronous training relies on an underexplored regime, online but off-policy RLHF: learning on samples from previous iterations of our model. To understand the challenges in this regime, we investigate a fundamental question: how much off-policyness can we tolerate for asynchronous training to speed up learning but maintain performance? Among several RLHF algorithms we tested, we find that online DPO is most robust to off-policy data, and robustness increases with the scale of the policy model. We study further compute optimizations for asynchronous RLHF but find that they come at a performance cost, giving rise to a trade-off. Finally, we verify the scalability of asynchronous RLHF by training LLaMA 3.1 8B on an instruction-following task 40% faster than a synchronous run while matching final performance.

Асинхронное обучение с подкреплением с высокой энтропией: Более быстрое и эффективное вне политики обучение с подкреплением для языковых моделей

Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models

Аннотация

Support