GoodVibe: Security-by-Vibe для генерации кода на основе больших языковых моделей

Аннотация

Крупные языковые модели (LLMs) все чаще используются для генерации кода в быстрых неформальных рабочих процессах разработки, часто называемых "вейв-кодингом", где приоритет отдается скорости и удобству, а требования безопасности редко формулируются явно. В таких условиях модели часто производят функционально корректный, но небезопасный код, создавая растущий риск для безопасности. Существующие подходы к повышению безопасности кода основаны на полнопараметрической тонкой настройке или параметрически-эффективных адаптациях, которые либо дороги и склонны к катастрофическому забыванию, либо работают на грубом уровне гранулярности с ограниченной интерпретируемостью и контролем. Мы представляем GoodVibe, нейроуровневую структуру для повышения безопасности языковых моделей кода по умолчанию. GoodVibe основан на ключевом наблюдении, что рассуждения, связанные с безопасностью, локализованы в небольшом подмножестве нейронов. Мы идентифицируем эти нейроны с помощью градиентной атрибуции из контролируемой задачи безопасности и выполняем нейроно-селективную тонкую настройку, которая обновляет только это критическое для безопасности подпространство. Для дальнейшего снижения стоимости обучения мы вводим кластеризацию нейронов на основе активации, что позволяет осуществлять структурированные обновления с минимальными накладными расходами. Мы оцениваем GoodVibe на шести LLM для критичных с точки зрения безопасности языков программирования, включая C++, Java, Swift и Go. GoodVibe существенно повышает безопасность генерируемого кода, сохраняя общую полезность модели, демонстрируя до 2.5-кратного улучшения по сравнению с базовыми моделями, соответствуя или превосходя полную тонкую настройку при использовании более чем в 4700 раз меньше обучаемых параметров и сокращая вычислительные затраты на обучение более чем в 3.6 раза по сравнению с параметрически-эффективным базовым методом (LoRA). Наши результаты показывают, что нейроуровневая оптимизация предлагает эффективный и масштабируемый подход к обеспечению безопасности генерации кода без ущерба для эффективности или универсальности.

English

Large language models (LLMs) are increasingly used for code generation in fast, informal development workflows, often referred to as vibe coding, where speed and convenience are prioritized, and security requirements are rarely made explicit. In this setting, models frequently produce functionally correct but insecure code, creating a growing security risk. Existing approaches to improving code security rely on full-parameter fine-tuning or parameter-efficient adaptations, which are either costly and prone to catastrophic forgetting or operate at coarse granularity with limited interpretability and control. We present GoodVibe, a neuron-level framework for improving the security of code language models by default. GoodVibe is based on the key insight that security-relevant reasoning is localized to a small subset of neurons. We identify these neurons using gradient-based attribution from a supervised security task and perform neuron-selective fine-tuning that updates only this security-critical subspace. To further reduce training cost, we introduce activation-driven neuron clustering, enabling structured updates with minimal overhead. We evaluate GoodVibe on six LLMs across security-critical programming languages, including C++, Java, Swift, and Go. GoodVibe substantially improves the security of generated code while preserving general model utility, achieving up to a 2.5x improvement over base models, matching or exceeding full fine-tuning with over 4,700x fewer trainable parameters, and reducing training computation by more than 3.6x compared to the parameter-efficient baseline (LoRA). Our results demonstrate that neuron-level optimization offers an effective and scalable approach to securing code generation without sacrificing efficiency or generality.

GoodVibe: Security-by-Vibe для генерации кода на основе больших языковых моделей

GoodVibe: Security-by-Vibe for LLM-Based Code Generation

Аннотация

Support