ReflexiCoder: Обучение больших языковых моделей саморефлексии над сгенерированным кодом и его самостоятельному исправлению с помощью обучения с подкреплением

Аннотация

Хотя большие языковые модели (LLM) произвели революцию в генерации кода, стандартные подходы «Системы 1», генерирующие решения за один прямой проход, часто достигают потолка производительности при решении сложных алгоритмических задач. Существующие стратегии итеративного уточнения пытаются преодолеть этот разрыв на этапе вывода, однако они в основном полагаются на внешние оракулы, обратную связь по выполнению или вычислительно дорогостоящие циклы «запрос-ответ». В данной работе мы предлагаем ReflexiCoder — новую архитектуру обучения с подкреплением (RL), которая интериоризирует структурированную траекторию рассуждений, включающую первоначальную генерацию, рефлексию с учетом ошибок и оптимизации, и самокоррекцию, непосредственно в веса модели. В отличие от предыдущих методов, ReflexiCoder смещает парадигму от уточнения, зависимого от внешних источников, к внутренним, полностью автономным возможностям саморефлексии и самокоррекции на этапе вывода. Мы используем парадигму обучения RL-zero с гранулированными функциями вознаграждения для оптимизации всей траектории «рефлексия-коррекция», обучая модель отладке без reliance на эталонную обратную связь или механизмы выполнения во время вывода. Масштабные эксперименты на семи бенчмарках демонстрируют, что наша модель ReflexiCoder-8B устанавливает новое state-of-the-art (SOTA) достижение среди ведущих открытых моделей в диапазоне 1.5B-14B параметров, достигая 94.51% (87.20%) на HumanEval (Plus), 81.80% (78.57%) на MBPP (Plus), 35.00% на BigCodeBench, 52.21% на LiveCodeBench и 37.34% на CodeForces в режиме единственной попытки, что сравнимо или превосходит результаты проприетарных моделей, таких как GPT-5.1. Примечательно, что наша архитектура значительно более эффективна по использованию токенов, чем базовые модели, сокращая вычислительные накладные расходы на этапе вывода примерно на 40% благодаря дисциплинированным, высокоскоростным шаблонам рассуждений и рефлексии. Исходный код доступен по адресу https://github.com/juyongjiang/ReflexiCoder.

English

While Large Language Models (LLMs) have revolutionized code generation, standard "System 1" approaches, generating solutions in a single forward pass, often hit a performance ceiling when faced with complex algorithmic tasks. Existing iterative refinement strategies attempt to bridge this gap at inference time, yet they predominantly rely on external oracles, execution feedback, or computationally expensive prompt-response cycles. In this work, we propose ReflexiCoder, a novel reinforcement learning (RL) framework that internalizes the structured reasoning trajectory, encompassing initial generation, bug and optimization aware reflection, and self-correction, directly into the model's weights. Unlike prior methods, ReflexiCoder shifts the paradigm from external-dependent refinement to an intrinsic, fully autonomous self-reflection and self-correction capabilities at inference time. We utilize an RL-zero training paradigm with granular reward functions to optimize the entire reflection-correction trajectory, teaching the model how to debug without reliance on ground-truth feedback or execution engines at inference time. Extensive experiments across seven benchmarks demonstrate that our ReflexiCoder-8B establishes a new state-of-the-art (SOTA) among leading open-source models in the 1.5B-14B range, achieving 94.51% (87.20%) on HumanEval (Plus), 81.80% (78.57%) on MBPP (Plus), 35.00% on BigCodeBench, 52.21% on LiveCodeBench, and 37.34% on CodeForces in a single-attempt setting, rivaling or surpassing proprietary models like GPT-5.1. Notably, our framework is significantly more token-efficient than base models, reducing inference-time compute overhead by approximately 40% through disciplined, high-speed reasoning and reflection patterns. Source code is available at https://github.com/juyongjiang/ReflexiCoder.

ReflexiCoder: Обучение больших языковых моделей саморефлексии над сгенерированным кодом и его самостоятельному исправлению с помощью обучения с подкреплением

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Аннотация

Support