Абсолютный ноль: Усиленный самообучающийся процесс рассуждений без использования данныхAbsolute Zero: Reinforced Self-play Reasoning with Zero Data
Обучение с подкреплением с верифицируемыми наградами (RLVR) продемонстрировало потенциал в улучшении способностей крупных языковых моделей к рассуждению за счет обучения на основе наград, связанных с результатами. Недавние работы по RLVR, работающие в условиях нулевого надзора, избегают контроля за процессом маркировки рассуждений, но все же зависят от вручную подготовленных наборов вопросов и ответов для обучения. Недостаток высококачественных примеров, созданных человеком, вызывает опасения относительно долгосрочной масштабируемости зависимости от человеческого надзора, что уже заметно в области предварительного обучения языковых моделей. Более того, в гипотетическом будущем, где ИИ превзойдет человеческий интеллект, задачи, предоставляемые людьми, могут предложить ограниченный потенциал для обучения сверхразумной системы. Чтобы решить эти проблемы, мы предлагаем новую парадигму RLVR под названием Absolute Zero, в которой одна модель учится предлагать задачи, которые максимизируют ее собственный прогресс в обучении, и улучшает рассуждения, решая их, не полагаясь на внешние данные. В рамках этой парадигмы мы представляем Absolute Zero Reasoner (AZR) — систему, которая самостоятельно развивает свою учебную программу и способность к рассуждению, используя исполнитель кода как для проверки предложенных задач на рассуждение, так и для верификации ответов, выступая в качестве единого источника верифицируемых наград для руководства открытым, но обоснованным обучением. Несмотря на то, что AZR обучается полностью без внешних данных, она достигает наилучших результатов на задачах по программированию и математическому рассуждению, превосходя существующие модели в условиях нулевого надзора, которые полагаются на десятки тысяч примеров, подготовленных человеком в соответствующей области. Кроме того, мы показываем, что AZR может эффективно применяться на различных масштабах моделей и совместима с различными классами моделей.