Veilige Codegeneratie via Online Reinforcement Learning met een Kwetsbaarheidsbeloningsmodel
Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model
February 7, 2026
Auteurs: Tianyi Wu, Mingzhe Du, Yue Liu, Chengran Yang, Terry Yue Zhuo, Jiaheng Zhang, See-Kiong Ng
cs.AI
Samenvatting
Grote taalmodellen (LLM's) worden steeds vaker gebruikt in softwareontwikkeling, maar hun neiging om onveilige code te genereren blijft een grote barrière voor praktische implementatie. Bestaande methoden voor het afstemmen van veilige code lijden vaak onder een functionaliteit-veiligheid-paradox, waarbij veiligheid wordt verbeterd ten koste van aanzienlijk functieverlies. Wij stellen SecCoderX voor, een online reinforcement learning-framework voor het genereren van veilige code die functionaliteit behoudt. SecCoderX verbindt eerst kwetsbaarheidsdetectie en het genereren van veilige code door volwassen detectiebronnen op twee manieren te hergebruiken: (i) het synthetiseren van diverse, op de realiteit gebaseerde codeertaken die kwetsbaarheden veroorzaken voor online RL-rollouts, en (ii) het trainen van een op redenering gebaseerd kwetsbaarheidsbeloningsmodel dat schaalbare en betrouwbare veiligheidstoezicht biedt. Samen worden deze componenten verenigd in een online RL-lus om code-LLM's af te stemmen op het genereren van veilige en functionele code. Uitgebreide experimenten tonen aan dat SecCoderX state-of-the-art prestaties bereikt, waarbij de Effectieve Veiligheidsratio (ESR) met ongeveer 10% verbetert ten opzichte van niet-afgestemde modellen, terwijl eerdere methoden de ESR vaak met 14-54% verslechteren. Wij geven onze code, dataset en modelcheckpoints vrij op https://github.com/AndrewWTY/SecCoderX.
English
Large language models (LLMs) are increasingly used in software development, yet their tendency to generate insecure code remains a major barrier to real-world deployment. Existing secure code alignment methods often suffer from a functionality--security paradox, improving security at the cost of substantial utility degradation. We propose SecCoderX, an online reinforcement learning framework for functionality-preserving secure code generation. SecCoderX first bridges vulnerability detection and secure code generation by repurposing mature detection resources in two ways: (i) synthesizing diverse, reality-grounded vulnerability-inducing coding tasks for online RL rollouts, and (ii) training a reasoning-based vulnerability reward model that provides scalable and reliable security supervision. Together, these components are unified in an online RL loop to align code LLMs to generate secure and functional code. Extensive experiments demonstrate that SecCoderX achieves state-of-the-art performance, improving Effective Safety Rate (ESR) by approximately 10% over unaligned models, whereas prior methods often degrade ESR by 14-54%. We release our code, dataset and model checkpoints at https://github.com/AndrewWTY/SecCoderX.