ReflexiCoder: Ensinando Modelos de Linguagem de Grande Porte a Autorrefletir sobre o Código Gerado e a Autocorrigi-lo por meio de Aprendizagem por Reforço
ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning
March 6, 2026
Autores: Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim
cs.AI
Resumo
Embora os Modelos de Linguagem de Grande Porte (LLMs) tenham revolucionado a geração de código, as abordagens padrão do "Sistema 1", que geram soluções em um único passo direto, frequentemente atingem um platô de desempenho quando confrontadas com tarefas algorítmicas complexas. Estratégias existentes de refinamento iterativo tentam preencher essa lacuna durante o tempo de inferência, mas dependem predominantemente de oráculos externos, *feedback* de execução ou ciclos *prompt-resposta* computacionalmente custosos. Neste trabalho, propomos o ReflexiCoder, um novo *framework* de Aprendizado por Reforço (RL) que internaliza a trajetória estruturada de raciocínio – abrangendo geração inicial, reflexão consciente de erros e otimização e autocorreção – diretamente nos pesos do modelo. Diferente de métodos anteriores, o ReflexiCoder muda o paradigma do refinamento dependente de fatores externos para capacidades intrínsecas, totalmente autônomas, de autorreflexão e autocorreção no tempo de inferência. Utilizamos um paradigma de treinamento RL-zero com funções de recompensa granulares para otimizar toda a trajetória de reflexão-correção, ensinando o modelo a depurar sem depender de *feedback* da verdade fundamental (*ground-truth*) ou motores de execução durante a inferência. Experimentos extensos em sete *benchmarks* demonstram que nosso ReflexiCoder-8B estabelece um novo estado da arte (SOTA) entre os principais modelos de código aberto na faixa de 1.5B a 14B, alcançando 94.51% (87.20%) no HumanEval (Plus), 81.80% (78.57%) no MBPP (Plus), 35.00% no BigCodeBench, 52.21% no LiveCodeBench e 37.34% no CodeForces em uma configuração de tentativa única, rivalizando ou superando modelos proprietários como o GPT-5.1. Notavelmente, nosso *framework* é significativamente mais eficiente em termos de *tokens* do que os modelos base, reduzindo a sobrecarga computacional no tempo de inferência em aproximadamente 40% por meio de padrões disciplinados e de alta velocidade de raciocínio e reflexão. O código-fonte está disponível em https://github.com/juyongjiang/ReflexiCoder.
English
While Large Language Models (LLMs) have revolutionized code generation, standard "System 1" approaches, generating solutions in a single forward pass, often hit a performance ceiling when faced with complex algorithmic tasks. Existing iterative refinement strategies attempt to bridge this gap at inference time, yet they predominantly rely on external oracles, execution feedback, or computationally expensive prompt-response cycles. In this work, we propose ReflexiCoder, a novel reinforcement learning (RL) framework that internalizes the structured reasoning trajectory, encompassing initial generation, bug and optimization aware reflection, and self-correction, directly into the model's weights. Unlike prior methods, ReflexiCoder shifts the paradigm from external-dependent refinement to an intrinsic, fully autonomous self-reflection and self-correction capabilities at inference time. We utilize an RL-zero training paradigm with granular reward functions to optimize the entire reflection-correction trajectory, teaching the model how to debug without reliance on ground-truth feedback or execution engines at inference time. Extensive experiments across seven benchmarks demonstrate that our ReflexiCoder-8B establishes a new state-of-the-art (SOTA) among leading open-source models in the 1.5B-14B range, achieving 94.51% (87.20%) on HumanEval (Plus), 81.80% (78.57%) on MBPP (Plus), 35.00% on BigCodeBench, 52.21% on LiveCodeBench, and 37.34% on CodeForces in a single-attempt setting, rivaling or surpassing proprietary models like GPT-5.1. Notably, our framework is significantly more token-efficient than base models, reducing inference-time compute overhead by approximately 40% through disciplined, high-speed reasoning and reflection patterns. Source code is available at https://github.com/juyongjiang/ReflexiCoder.