Самостоятельная коррекция с вознаграждением для математического рассужденияSelf-rewarding correction for mathematical reasoning
Мы исследуем крупные языковые модели (LLM) с самовознаграждающим рассуждением, которые способны одновременно генерировать пошаговые рассуждения и оценивать корректность своих выводов во время выполнения — без внешней обратной связи. Такой интегрированный подход позволяет одной модели самостоятельно направлять процесс рассуждения, что обеспечивает вычислительные преимущества для развертывания модели. Мы уделяем особое внимание репрезентативной задаче самокоррекции, где модели автономно обнаруживают ошибки в своих ответах, исправляют выводы и решают, когда завершить итеративные циклы уточнения. Для реализации этого мы предлагаем двухэтапный алгоритмический фреймворк для создания моделей с самовознаграждающим рассуждением, используя только самостоятельно сгенерированные данные. На первом этапе мы применяем последовательный метод отклоняющего сэмплирования для синтеза длинных цепочек рассуждений, которые включают как механизмы самовознаграждения, так и самокоррекции. Тонкая настройка моделей на этих отобранных данных позволяет им изучить паттерны самовознаграждения и самокоррекции. На втором этапе мы дополнительно улучшаем способность моделей оценивать точность ответов и уточнять выводы с помощью обучения с подкреплением на основе правил. Эксперименты с моделями Llama-3 и Qwen-2.5 демонстрируют, что наш подход превосходит внутренние возможности самокоррекции и достигает производительности, сопоставимой с системами, использующими внешние модели вознаграждения.