Vergelijkende Analyse van LLM-vereffeningsmethoden: Een cross-architecturale evaluatie
Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation
December 15, 2025
Auteurs: Richard J. Young
cs.AI
Samenvatting
Veiligheidsuitlijningsmechanismen in grote taalmodellen voorkomen reacties op schadelijke vragen door aangeleerd weigeringsgedrag, maar dezezelfde mechanismen belemmeren legitieme onderzoeksapplicaties, waaronder cognitieve modellering, adversariële testen en beveiligingsanalyse. Hoewel ablitatietechnieken chirurgische verwijdering van weigeringsrepresentaties mogelijk maken via directionele orthogonalisatie, is de relatieve effectiviteit van beschikbare implementaties nog niet gekarakteriseerd. Deze studie evalueert vier ablitatietools (Heretic, DECCP, ErisForge, FailSpy) over zestien instructie-afgestemde modellen (7B-14B parameters), rapporteert toolcompatibiliteit voor alle 16 modellen en kwantitatieve metrieken op subsets bepaald door toolondersteuning. Enkelvoudige-pass-methoden toonden superieure capaciteitsbehoud aan op de gebenchmarkte subset (gem. GSM8K-verandering over drie modellen: ErisForge -0,28 pp; DECCP -0,13 pp), terwijl Bayesiaans-geoptimaliseerde ablatie variabele distributieverschuiving produceerde (KL-divergentie: 0,043-1,646) met modelafhankelijke capaciteitsimpact. Deze bevindingen bieden onderzoekers evidence-based selectiecriteria voor ablitatietoolinzet over diverse modelarchitecturen. De belangrijkste bevinding geeft aan dat wiskundige redeneercapaciteiten de hoogste gevoeligheid vertonen voor ablatie-interventies, met GSM8K-veranderingen variërend van +1,51 pp tot -18,81 pp (-26,5% relatief) afhankelijk van toolselectie en modelarchitectuur.
English
Safety alignment mechanisms in large language models prevent responses to harmful queries through learned refusal behavior, yet these same mechanisms impede legitimate research applications including cognitive modeling, adversarial testing, and security analysis. While abliteration techniques enable surgical removal of refusal representations through directional orthogonalization, the relative effectiveness of available implementations remains uncharacterized. This study evaluates four abliteration tools (Heretic, DECCP, ErisForge, FailSpy) across sixteen instruction-tuned models (7B-14B parameters), reporting tool compatibility on all 16 models and quantitative metrics on subsets dictated by tool support. Single-pass methods demonstrated superior capability preservation on the benchmarked subset (avg GSM8K change across three models: ErisForge -0.28 pp; DECCP -0.13 pp), while Bayesian-optimized abliteration produced variable distribution shift (KL divergence: 0.043-1.646) with model-dependent capability impact. These findings provide researchers with evidence-based selection criteria for abliteration tool deployment across diverse model architectures. The principal finding indicates that mathematical reasoning capabilities exhibit the highest sensitivity to abliteration interventions, with GSM8K change ranging from +1.51 pp to -18.81 pp (-26.5% relative) depending on tool selection and model architecture.