Sichere Codegenerierung durch Online-Verstärkungslernen mit einem Vulnerabilitäts-Belohnungsmodell

papers.abstract

Große Sprachmodelle (LLMs) werden zunehmend in der Softwareentwicklung eingesetzt, doch ihre Tendenz, unsicheren Code zu generieren, bleibt ein Haupthindernis für den praktischen Einsatz. Bestehende Methoden zur Ausrichtung auf sicheren Code leiden oft unter einem Funktionalitäts-Sicherheits-Paradoxon, bei dem die Verbesserung der Sicherheit auf Kosten erheblicher Funktionalitätseinbußen erkauft wird. Wir schlagen SecCoderX vor, ein Online-Reinforcement-Learning-Framework zur funktionserhaltenden Generierung von sicherem Code. SecCoderX überbrückt zunächst Schwachstellenerkennung und sichere Codegenerierung, indem es ausgereifte Erkennungsressourcen auf zwei Arten nutzbar macht: (i) Synthese vielfältiger, realitätsnaher, schwachstellenverursachender Programmieraufgaben für Online-RL-Rollouts und (ii) Training eines auf Reasoning basierenden Schwachstellen-Belohnungsmodells, das skalierbare und zuverlässige Sicherheitsüberwachung bereitstellt. Diese Komponenten werden in einer Online-RL-Schleife vereint, um Code-LLMs darauf auszurichten, sicheren und funktionalen Code zu generieren. Umfangreiche Experimente belegen, dass SecCoderX state-of-the-art Leistung erzielt und die Effective Safety Rate (ESR) im Vergleich zu nicht-angepassten Modellen um circa 10 % verbessert, während bisherige Methoden die ESR oft um 14–54 % verschlechtern. Wir veröffentlichen unseren Code, Datensatz und Modell-Checkpoints unter https://github.com/AndrewWTY/SecCoderX.

English

Large language models (LLMs) are increasingly used in software development, yet their tendency to generate insecure code remains a major barrier to real-world deployment. Existing secure code alignment methods often suffer from a functionality--security paradox, improving security at the cost of substantial utility degradation. We propose SecCoderX, an online reinforcement learning framework for functionality-preserving secure code generation. SecCoderX first bridges vulnerability detection and secure code generation by repurposing mature detection resources in two ways: (i) synthesizing diverse, reality-grounded vulnerability-inducing coding tasks for online RL rollouts, and (ii) training a reasoning-based vulnerability reward model that provides scalable and reliable security supervision. Together, these components are unified in an online RL loop to align code LLMs to generate secure and functional code. Extensive experiments demonstrate that SecCoderX achieves state-of-the-art performance, improving Effective Safety Rate (ESR) by approximately 10% over unaligned models, whereas prior methods often degrade ESR by 14-54%. We release our code, dataset and model checkpoints at https://github.com/AndrewWTY/SecCoderX.

Sichere Codegenerierung durch Online-Verstärkungslernen mit einem Vulnerabilitäts-Belohnungsmodell

Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model

papers.abstract

Support