ChatPaper.aiChatPaper

Сравнительный анализ методов аблитерации больших языковых моделей: кросс-архитектурная оценка

Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation

December 15, 2025
Авторы: Richard J. Young
cs.AI

Аннотация

Механизмы безопасности в больших языковых моделях предотвращают ответы на вредоносные запросы через обученное поведение отказа, однако эти же механизмы препятствуют легитимным исследовательским приложениям, включая когнитивное моделирование, адверсарное тестирование и анализ безопасности. Хотя техники аблитерации позволяют хирургически удалять репрезентации отказа посредством направленной ортогонализации, относительная эффективность доступных реализаций остаётся неохарактеризованной. В данном исследовании оцениваются четыре инструмента аблитерации (Heretic, DECCP, ErisForge, FailSpy) на шестнадцати инструктивно-дообученных моделях (7–14 млрд параметров), сообщается о совместимости инструментов со всеми 16 моделями и приводятся количественные метрики для подмножеств, определённых поддержкой инструментов. Одноэтапные методы продемонстрировали превосходное сохранение способностей на тестируемом подмножестве (среднее изменение GSM8K для трёх моделей: ErisForge -0.28 п.п.; DECCP -0.13 п.п.), в то время как байесовски-оптимизированная аблитерация вызывала вариабельный сдвиг распределения (расхождение Кульбака-Лейблера: 0.043–1.646) с зависящим от модели влиянием на способности. Эти результаты предоставляют исследователям основанные на доказательствах критерии выбора для развёртывания инструментов аблитерации в различных модельных архитектурах. Ключевой вывод указывает, что математические reasoning-способности проявляют наивысшую чувствительность к интервенциям аблитерации, с изменением GSM8K в диапазоне от +1.51 п.п. до -18.81 п.п. (-26.5% относительно) в зависимости от выбора инструмента и архитектуры модели.
English
Safety alignment mechanisms in large language models prevent responses to harmful queries through learned refusal behavior, yet these same mechanisms impede legitimate research applications including cognitive modeling, adversarial testing, and security analysis. While abliteration techniques enable surgical removal of refusal representations through directional orthogonalization, the relative effectiveness of available implementations remains uncharacterized. This study evaluates four abliteration tools (Heretic, DECCP, ErisForge, FailSpy) across sixteen instruction-tuned models (7B-14B parameters), reporting tool compatibility on all 16 models and quantitative metrics on subsets dictated by tool support. Single-pass methods demonstrated superior capability preservation on the benchmarked subset (avg GSM8K change across three models: ErisForge -0.28 pp; DECCP -0.13 pp), while Bayesian-optimized abliteration produced variable distribution shift (KL divergence: 0.043-1.646) with model-dependent capability impact. These findings provide researchers with evidence-based selection criteria for abliteration tool deployment across diverse model architectures. The principal finding indicates that mathematical reasoning capabilities exhibit the highest sensitivity to abliteration interventions, with GSM8K change ranging from +1.51 pp to -18.81 pp (-26.5% relative) depending on tool selection and model architecture.
PDF21December 18, 2025