Génération de Code Sécurisé par Apprentissage par Renforcement en Ligne avec un Modèle de Récompense basé sur les Vulnérabilités
Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model
February 7, 2026
papers.authors: Tianyi Wu, Mingzhe Du, Yue Liu, Chengran Yang, Terry Yue Zhuo, Jiaheng Zhang, See-Kiong Ng
cs.AI
papers.abstract
Les grands modèles de langage (LLM) sont de plus en plus utilisés dans le développement logiciel, mais leur tendance à générer du code non sécurisé reste un obstacle majeur à leur déploiement réel. Les méthodes existantes d'alignement du code sécurisé souffrent souvent d'un paradoxe fonctionnalité-sécurité, améliorant la sécurité au prix d'une dégradation substantielle de l'utilité. Nous proposons SecCoderX, un cadre d'apprentissage par renforcement en ligne pour la génération de code sécurisé préservant la fonctionnalité. SecCoderX établit d'abord un pont entre la détection des vulnérabilités et la génération de code sécurisé en réutilisant des ressources de détection matures de deux manières : (i) en synthétisant des tâches de codage diverses et réalistes induisant des vulnérabilités pour les déploiements de RL en ligne, et (ii) en entraînant un modèle de récompense basé sur le raisonnement des vulnérabilités qui fournit une supervision de sécurité évolutive et fiable. Ensemble, ces composants sont unifiés dans une boucle de RL en ligne pour aligner les LLM de code afin de générer du code sécurisé et fonctionnel. Des expériences approfondies démontrent que SecCoderX atteint des performances de pointe, améliorant le Taux de Sécurité Efficace (ESR) d'environ 10 % par rapport aux modèles non alignés, tandis que les méthodes antérieures dégradent souvent l'ESR de 14 à 54 %. Nous publions notre code, notre jeu de données et nos points de contrôle de modèle à l'adresse https://github.com/AndrewWTY/SecCoderX.
English
Large language models (LLMs) are increasingly used in software development, yet their tendency to generate insecure code remains a major barrier to real-world deployment. Existing secure code alignment methods often suffer from a functionality--security paradox, improving security at the cost of substantial utility degradation. We propose SecCoderX, an online reinforcement learning framework for functionality-preserving secure code generation. SecCoderX first bridges vulnerability detection and secure code generation by repurposing mature detection resources in two ways: (i) synthesizing diverse, reality-grounded vulnerability-inducing coding tasks for online RL rollouts, and (ii) training a reasoning-based vulnerability reward model that provides scalable and reliable security supervision. Together, these components are unified in an online RL loop to align code LLMs to generate secure and functional code. Extensive experiments demonstrate that SecCoderX achieves state-of-the-art performance, improving Effective Safety Rate (ESR) by approximately 10% over unaligned models, whereas prior methods often degrade ESR by 14-54%. We release our code, dataset and model checkpoints at https://github.com/AndrewWTY/SecCoderX.