Размышляй, Повторяй, Вознаграждай: Самоулучшение больших языковых моделей с помощью обучения с подкреплениемReflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning
Мы исследуем метод повышения производительности больших языковых моделей с использованием саморефлексии и обучения с подкреплением. Стимулируя модель генерировать более качественные саморефлексии при неправильных ответах, мы демонстрируем, что способность модели решать сложные, проверяемые задачи может быть улучшена даже в условиях, когда генерация синтетических данных невозможна и доступна только бинарная обратная связь. Наш подход работает в два этапа: сначала, при неудачном выполнении задачи, модель генерирует саморефлексивный комментарий, анализирующий её предыдущую попытку; затем модель получает ещё одну попытку выполнить задачу с учётом этого комментария. Если последующая попытка оказывается успешной, токены, сгенерированные на этапе саморефлексии, получают вознаграждение. Наши экспериментальные результаты показывают значительное улучшение производительности для различных архитектур моделей, достигая 34,7% в написании математических уравнений и 18,1% в вызове функций. Примечательно, что более мелкие дообученные модели (от 1,5 до 7 миллиардов параметров) превосходят модели того же семейства, которые в 10 раз больше. Таким образом, наш новый подход представляет собой перспективный путь к созданию более полезных и надёжных языковых моделей, способных самостоятельно улучшаться в решении сложных задач при ограниченной внешней обратной связи.