SWE-RL: Развитие рассуждений на основе LLM с помощью обучения с подкреплением на открытой эволюции программного обеспеченияSWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open
Software Evolution
Недавний релиз DeepSeek-R1 продемонстрировал огромный потенциал обучения с подкреплением (RL) в улучшении общих способностей рассуждения крупных языковых моделей (LLM). В то время как DeepSeek-R1 и другие последующие работы в основном сосредотачиваются на применении RL к соревновательному программированию и математическим задачам, настоящая статья представляет SWE-RL, первый подход к масштабированию рассуждения на основе RL для реальной инженерии программного обеспечения. Используя легковесную правило-основанную систему вознаграждения (например, оценку сходства между истинными и LLM-сгенерированными решениями), SWE-RL позволяет LLM автономно восстанавливать процессы рассуждения разработчика и решения, изучая обширные данные по эволюции программного обеспечения с открытым исходным кодом - историю жизненного цикла программного обеспечения, включая его снимки кода, изменения кода и события, такие как задачи и запросы на включение изменений. Обученная поверх Llama 3, наша полученная модель рассуждения, Llama3-SWE-RL-70B, достигает показателя решения 41,0% на SWE-bench Verified - коллекции реальных проблем GitHub, подтвержденных людьми. На наш взгляд, это лучший показатель производительности, сообщенный до настоящего времени для среднего размера (<100B) LLM, даже сравнимый с ведущими собственными LLM, такими как GPT-4o. Удивительно, несмотря на то что обучение RL происходит исключительно на данных эволюции программного обеспечения, Llama3-SWE-RL даже приобрела обобщенные навыки рассуждения. Например, она показывает улучшенные результаты на пяти задачах вне области, а именно, программирование функций, использование библиотек, рассуждение о коде, математика и общее понимание языка, в то время как базовая линия с обучением с учителем даже приводит к снижению производительности в среднем. В целом, SWE-RL открывает новое направление для улучшения способностей рассуждения LLM через обучение с подкреплением на обширных данных по инженерии программного обеспечения.