Обучение языковых моделей самокоррекции с использованием обучения с подкреплениемTraining Language Models to Self-Correct via Reinforcement Learning
Способность к самокоррекции является весьма желательной характеристикой больших языковых моделей (LLM), однако она постоянно оказывается в значительной степени неэффективной в современных LLM. Существующие подходы к обучению самокоррекции требуют либо нескольких моделей, либо опираются на более способную модель или другие формы надзора. В этой связи мы разрабатываем многоходовой онлайн-подход к обучению с подкреплением (RL), SCoRe, который значительно улучшает способность LLM к самокоррекции, используя исключительно самогенерируемые данные. Для создания SCoRe мы сначала показываем, что варианты надзорного дообучения (SFT) на офлайн-следах коррекции, сгенерированных моделью, недостаточны для внедрения поведения самокоррекции. В частности, мы наблюдаем, что обучение через SFT страдает от несоответствия распределения между обучающими данными и собственными ответами модели или неявно предпочитает только определенный режим поведения коррекции, который часто неэффективен на этапе тестирования. SCoRe решает эти проблемы, обучаясь на собственном распределении самогенерируемых следов коррекции и используя соответствующую регуляризацию для направления процесса обучения на изучение стратегии самокоррекции, эффективной на этапе тестирования, вместо простого подгонки высокооцененных ответов для заданного запроса. Эта регуляризация предписывает выполнение первой фазы RL на базовой модели для создания инициализации политики, менее подверженной коллапсу, а затем использование бонуса вознаграждения для усиления самокоррекции во время обучения. Примененный к моделям Gemini 1.0 Pro и 1.5 Flash, мы обнаружили, что SCoRe достигает передовой производительности самокоррекции, улучшая самокоррекцию базовых моделей на 15.6% и 9.1% соответственно на бенчмарках MATH и HumanEval.