Обучение языковых моделей самокоррекции с использованием обучения с подкреплением
Training Language Models to Self-Correct via Reinforcement Learning
September 19, 2024
Авторы: Aviral Kumar, Vincent Zhuang, Rishabh Agarwal, Yi Su, John D Co-Reyes, Avi Singh, Kate Baumli, Shariq Iqbal, Colton Bishop, Rebecca Roelofs, Lei M Zhang, Kay McKinney, Disha Shrivastava, Cosmin Paduraru, George Tucker, Doina Precup, Feryal Behbahani, Aleksandra Faust
cs.AI
Аннотация
Способность к самокоррекции является весьма желательной характеристикой больших языковых моделей (LLM), однако она постоянно оказывается в значительной степени неэффективной в современных LLM. Существующие подходы к обучению самокоррекции требуют либо нескольких моделей, либо опираются на более способную модель или другие формы надзора. В этой связи мы разрабатываем многоходовой онлайн-подход к обучению с подкреплением (RL), SCoRe, который значительно улучшает способность LLM к самокоррекции, используя исключительно самогенерируемые данные. Для создания SCoRe мы сначала показываем, что варианты надзорного дообучения (SFT) на офлайн-следах коррекции, сгенерированных моделью, недостаточны для внедрения поведения самокоррекции. В частности, мы наблюдаем, что обучение через SFT страдает от несоответствия распределения между обучающими данными и собственными ответами модели или неявно предпочитает только определенный режим поведения коррекции, который часто неэффективен на этапе тестирования. SCoRe решает эти проблемы, обучаясь на собственном распределении самогенерируемых следов коррекции и используя соответствующую регуляризацию для направления процесса обучения на изучение стратегии самокоррекции, эффективной на этапе тестирования, вместо простого подгонки высокооцененных ответов для заданного запроса. Эта регуляризация предписывает выполнение первой фазы RL на базовой модели для создания инициализации политики, менее подверженной коллапсу, а затем использование бонуса вознаграждения для усиления самокоррекции во время обучения. Примененный к моделям Gemini 1.0 Pro и 1.5 Flash, мы обнаружили, что SCoRe достигает передовой производительности самокоррекции, улучшая самокоррекцию базовых моделей на 15.6% и 9.1% соответственно на бенчмарках MATH и HumanEval.
English
Self-correction is a highly desirable capability of large language models
(LLMs), yet it has consistently been found to be largely ineffective in modern
LLMs. Existing approaches for training self-correction either require multiple
models or rely on a more capable model or other forms of supervision. To this
end, we develop a multi-turn online reinforcement learning (RL) approach,
SCoRe, that significantly improves an LLM's self-correction ability using
entirely self-generated data. To build SCoRe, we first show that variants of
supervised fine-tuning (SFT) on offline model-generated correction traces are
insufficient for instilling self-correction behavior. In particular, we observe
that training via SFT either suffers from a distribution mismatch between the
training data and the model's own responses or implicitly prefers only a
certain mode of correction behavior that is often not effective at test time.
SCoRe addresses these challenges by training under the model's own distribution
of self-generated correction traces and using appropriate regularization to
steer the learning process into learning a self-correction strategy that is
effective at test time as opposed to simply fitting high-reward responses for a
given prompt. This regularization prescribes running a first phase of RL on a
base model to generate a policy initialization that is less susceptible to
collapse and then using a reward bonus to amplify self-correction during
training. When applied to Gemini 1.0 Pro and 1.5 Flash models, we find that
SCoRe achieves state-of-the-art self-correction performance, improving the base
models' self-correction by 15.6% and 9.1% respectively on the MATH and
HumanEval benchmarks.Summary
AI-Generated Summary