GoodVibe: Security-by-Vibe für die codegenerierung mit LLMs

papers.abstract

Große Sprachmodelle (LLMs) werden zunehmend zur Code-Generierung in schnellen, informellen Entwicklungs-Workflows eingesetzt, die oft als "Vibe Coding" bezeichnet werden, wobei Geschwindigkeit und Komfort priorisiert werden und Sicherheitsanforderungen selten explizit gemacht werden. In diesem Umfeld erzeugen Modelle häufig funktional korrekten, aber unsicheren Code, was ein wachsendes Sicherheitsrisiko darstellt. Bestehende Ansätze zur Verbesserung der Codesicherheit setzen auf Full-Parameter-Fine-Tuning oder parameter-effiziente Anpassungen, die entweder kostspielig und anfällig für katastrophales Vergessen sind oder mit grober Granularität, begrenzter Interpretierbarkeit und Kontrolle operieren. Wir stellen GoodVibe vor, ein Framework auf Neuron-Ebene zur Verbesserung der Sicherheit von Code-Sprachmodellen standardmäßig. GoodVibe basiert auf der zentralen Erkenntnis, dass sicherheitsrelevantes Denken auf eine kleine Teilmenge von Neuronen lokalisiert ist. Wir identifizieren diese Neuronen mittels gradientenbasierter Attribution aus einer überwachten Sicherheitsaufgabe und führen ein neuronenselektives Fine-Tuning durch, das nur diesen sicherheitskritischen Unterraum aktualisiert. Um die Trainingskosten weiter zu senken, führen wir eine aktivierungsgesteuerte Neuron-Clustering ein, das strukturierte Aktualisierungen mit minimalem Overhead ermöglicht. Wir evaluieren GoodVibe an sechs LLMs über sicherheitskritische Programmiersprachen hinweg, einschließlich C++, Java, Swift und Go. GoodVibe verbessert die Sicherheit von generiertem Code erheblich, während die allgemeine Modell-Nützlichkeit erhalten bleibt, erreicht bis zu eine 2,5-fache Verbesserung gegenüber Basismodellen, übertrifft oder gleicht Full Fine-Tuning mit über 4.700-fach weniger trainierbaren Parametern aus und reduziert die Trainingsberechnung um mehr als das 3,6-fache im Vergleich zum parameter-effizienten Baseline (LoRA). Unsere Ergebnisse zeigen, dass Optimierung auf Neuron-Ebene einen effektiven und skalierbaren Ansatz zur Absicherung der Code-Generierung bietet, ohne Effizienz oder Allgemeingültigkeit zu opfern.

English

Large language models (LLMs) are increasingly used for code generation in fast, informal development workflows, often referred to as vibe coding, where speed and convenience are prioritized, and security requirements are rarely made explicit. In this setting, models frequently produce functionally correct but insecure code, creating a growing security risk. Existing approaches to improving code security rely on full-parameter fine-tuning or parameter-efficient adaptations, which are either costly and prone to catastrophic forgetting or operate at coarse granularity with limited interpretability and control. We present GoodVibe, a neuron-level framework for improving the security of code language models by default. GoodVibe is based on the key insight that security-relevant reasoning is localized to a small subset of neurons. We identify these neurons using gradient-based attribution from a supervised security task and perform neuron-selective fine-tuning that updates only this security-critical subspace. To further reduce training cost, we introduce activation-driven neuron clustering, enabling structured updates with minimal overhead. We evaluate GoodVibe on six LLMs across security-critical programming languages, including C++, Java, Swift, and Go. GoodVibe substantially improves the security of generated code while preserving general model utility, achieving up to a 2.5x improvement over base models, matching or exceeding full fine-tuning with over 4,700x fewer trainable parameters, and reducing training computation by more than 3.6x compared to the parameter-efficient baseline (LoRA). Our results demonstrate that neuron-level optimization offers an effective and scalable approach to securing code generation without sacrificing efficiency or generality.

GoodVibe: Security-by-Vibe für die codegenerierung mit LLMs

GoodVibe: Security-by-Vibe for LLM-Based Code Generation

papers.abstract

Support