GoodVibe: Beveiliging-door-Trilling voor op LLM gebaseerde Codegeneratie
GoodVibe: Security-by-Vibe for LLM-Based Code Generation
February 11, 2026
Auteurs: Maximilian Thang, Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Jona te Lintelo, Stjepan Picek, Ahmad-Reza Sadeghi
cs.AI
Samenvatting
Grote taalmodellen (LLM's) worden steeds vaker gebruikt voor codegeneratie in snelle, informele ontwikkelworkflows, vaak aangeduid als 'vibe coding', waarbij snelheid en gemak prioriteit hebben en beveiligingseisen zelden expliciet worden gemaakt. In deze setting produceren modellen vaak functioneel correcte maar onveilige code, wat een groeiend beveiligingsrisico vormt. Bestaande benaderingen om codesecurity te verbeteren, zijn gebaseerd op volledige parameterafstemming (fine-tuning) of parameter-efficiënte aanpassingen, die ofwel kostbaar zijn en gevoelig voor catastrofale vergetelheid, ofwel opereren op een grove granulariteit met beperkte interpreteerbaarheid en controle.
Wij presenteren GoodVibe, een raamwerk op neuronniveau om de beveiliging van code-taalmodellen standaard te verbeteren. GoodVibe is gebaseerd op het kerninzicht dat beveiligingsrelevante redenering gelokaliseerd is in een kleine subset van neuronen. Wij identificeren deze neuronen met behulp van opgradiënten gebaseerde attributie vanuit een gesuperviseerde beveiligingstaak en voeren neuronselectieve fine-tuning uit die alleen deze beveiligingskritische deelruimte bijwerkt. Om de trainingskosten verder te verlagen, introduceren we activatiedrijvende neuronclustering, waardoor gestructureerde updates met minimale overhead mogelijk zijn.
We evalueren GoodVibe op zes LLM's voor verschillende beveiligingskritieke programmeertalen, waaronder C++, Java, Swift en Go. GoodVibe verbetert de beveiliging van gegenereerde code aanzienlijk, waarbij de algemene modelfunctionaliteit behouden blijft. Het behaalt een verbetering tot 2,5x ten opzichte van de basismodellen, evenaart of overtreft volledige fine-tuning met meer dan 4.700x minder trainbare parameters, en reduceert de trainingsrekentijd met meer dan 3,6x vergeleken met de parameter-efficiënte baseline (LoRA). Onze resultaten tonen aan dat optimalisatie op neuronniveau een effectieve en schaalbare benadering biedt om codegeneratie te beveiligen zonder efficiëntie of algemeenheid op te offeren.
English
Large language models (LLMs) are increasingly used for code generation in fast, informal development workflows, often referred to as vibe coding, where speed and convenience are prioritized, and security requirements are rarely made explicit. In this setting, models frequently produce functionally correct but insecure code, creating a growing security risk. Existing approaches to improving code security rely on full-parameter fine-tuning or parameter-efficient adaptations, which are either costly and prone to catastrophic forgetting or operate at coarse granularity with limited interpretability and control.
We present GoodVibe, a neuron-level framework for improving the security of code language models by default. GoodVibe is based on the key insight that security-relevant reasoning is localized to a small subset of neurons. We identify these neurons using gradient-based attribution from a supervised security task and perform neuron-selective fine-tuning that updates only this security-critical subspace. To further reduce training cost, we introduce activation-driven neuron clustering, enabling structured updates with minimal overhead. We evaluate GoodVibe on six LLMs across security-critical programming languages, including C++, Java, Swift, and Go. GoodVibe substantially improves the security of generated code while preserving general model utility, achieving up to a 2.5x improvement over base models, matching or exceeding full fine-tuning with over 4,700x fewer trainable parameters, and reducing training computation by more than 3.6x compared to the parameter-efficient baseline (LoRA). Our results demonstrate that neuron-level optimization offers an effective and scalable approach to securing code generation without sacrificing efficiency or generality.