ChatPaper.aiChatPaper

ReflexiCoder : Enseigner aux grands modèles de langage à réfléchir sur le code généré et à l'auto-corriger via l'apprentissage par renforcement

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

March 6, 2026
Auteurs: Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim
cs.AI

Résumé

Si les grands modèles de langage (LLM) ont révolutionné la génération de code, les approches standard de « Système 1 », qui produisent des solutions en une seule passe avant, atteignent souvent un plafond de performance face à des tâches algorithmiques complexes. Les stratégies existantes de raffinement itératif tentent de combler cet écart au moment de l'inférence, mais elles reposent principalement sur des oracles externes, des retours d'exécution ou des cycles prompts-réponses informatiquement coûteux. Dans ce travail, nous proposons ReflexiCoder, un nouveau cadre d'apprentissage par renforcement (RL) qui internalise la trajectoire de raisonnement structuré, comprenant la génération initiale, une réflexion consciente des bogues et de l'optimisation, et l'auto-correction, directement dans les poids du modèle. Contrairement aux méthodes antérieures, ReflexiCoder fait évoluer le paradigme d'un raffinement dépendant de l'externe vers des capacités intrinsèques, entièrement autonomes, d'auto-réflexion et d'auto-correction au moment de l'inférence. Nous utilisons un paradigme d'entraînement RL-zéro avec des fonctions de récompense granulaires pour optimiser l'ensemble de la trajectoire réflexion-correction, enseignant au modèle comment déboguer sans dépendre de retours terrain ou de moteurs d'exécution lors de l'inférence. Des expériences approfondies sur sept benchmarks démontrent que notre ReflexiCoder-8B établit un nouvel état de l'art (SOTA) parmi les principaux modèles open-source dans la plage 1,5B-14B, atteignant 94,51 % (87,20 %) sur HumanEval (Plus), 81,80 % (78,57 %) sur MBPP (Plus), 35,00 % sur BigCodeBench, 52,21 % sur LiveCodeBench et 37,34 % sur CodeForces dans un scénario à tentative unique, rivalisant ou surpassant des modèles propriétaires comme GPT-5.1. Notamment, notre cadre est nettement plus économe en tokens que les modèles de base, réduisant la surcharge computationnelle lors de l'inférence d'environ 40 % grâce à des schémas de raisonnement et de réflexion disciplinés et haute vitesse. Le code source est disponible à l'adresse https://github.com/juyongjiang/ReflexiCoder.
English
While Large Language Models (LLMs) have revolutionized code generation, standard "System 1" approaches, generating solutions in a single forward pass, often hit a performance ceiling when faced with complex algorithmic tasks. Existing iterative refinement strategies attempt to bridge this gap at inference time, yet they predominantly rely on external oracles, execution feedback, or computationally expensive prompt-response cycles. In this work, we propose ReflexiCoder, a novel reinforcement learning (RL) framework that internalizes the structured reasoning trajectory, encompassing initial generation, bug and optimization aware reflection, and self-correction, directly into the model's weights. Unlike prior methods, ReflexiCoder shifts the paradigm from external-dependent refinement to an intrinsic, fully autonomous self-reflection and self-correction capabilities at inference time. We utilize an RL-zero training paradigm with granular reward functions to optimize the entire reflection-correction trajectory, teaching the model how to debug without reliance on ground-truth feedback or execution engines at inference time. Extensive experiments across seven benchmarks demonstrate that our ReflexiCoder-8B establishes a new state-of-the-art (SOTA) among leading open-source models in the 1.5B-14B range, achieving 94.51% (87.20%) on HumanEval (Plus), 81.80% (78.57%) on MBPP (Plus), 35.00% on BigCodeBench, 52.21% on LiveCodeBench, and 37.34% on CodeForces in a single-attempt setting, rivaling or surpassing proprietary models like GPT-5.1. Notably, our framework is significantly more token-efficient than base models, reducing inference-time compute overhead by approximately 40% through disciplined, high-speed reasoning and reflection patterns. Source code is available at https://github.com/juyongjiang/ReflexiCoder.
PDF11March 12, 2026