Analisi Comparativa dei Metodi di Abliterazione degli LLM: Una Valutazione Trans-Architetturale
Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation
December 15, 2025
Autori: Richard J. Young
cs.AI
Abstract
I meccanismi di allineamento alla sicurezza nei grandi modelli linguistici impediscono risposte a query dannose attraverso comportamenti di rifiuto appresi, tuttavia questi stessi meccanismi ostacolano applicazioni di ricerca legittime incluse la modellazione cognitiva, i test adversarial e l'analisi della sicurezza. Sebbene le tecniche di abliterazione consentano la rimozione chirurgica delle rappresentazioni di rifiuto mediante orthogonalizzazione direzionale, l'efficacia relativa delle implementazioni disponibili rimane non caratterizzata. Questo studio valuta quattro strumenti di abliterazione (Heretic, DECCP, ErisForge, FailSpy) su sedici modelli addestrati su istruzioni (7B-14B parametri), riportando la compatibilità degli strumenti su tutti i 16 modelli e metriche quantitative sui sottoinsiemi determinati dal supporto degli strumenti. I metodi single-pass hanno dimostrato una conservazione delle capacità superiore sul sottoinsieme valutato (variazione media GSM8K su tre modelli: ErisForge -0,28 pp; DECCP -0,13 pp), mentre l'abliterazione ottimizzata bayesiana ha prodotto uno spostamento distributivo variabile (divergenza KL: 0,043-1,646) con un impatto sulle capacità dipendente dal modello. Questi risultati forniscono ai ricercatori criteri di selezione basati su evidenze per il dispiegamento di strumenti di abliterazione su diverse architetture di modelli. Il risultato principale indica che le capacità di ragionamento matematico mostrano la sensibilità più elevata agli interventi di abliterazione, con una variazione GSM8K che va da +1,51 pp a -18,81 pp (-26,5% relativo) a seconda della selezione dello strumento e dell'architettura del modello.
English
Safety alignment mechanisms in large language models prevent responses to harmful queries through learned refusal behavior, yet these same mechanisms impede legitimate research applications including cognitive modeling, adversarial testing, and security analysis. While abliteration techniques enable surgical removal of refusal representations through directional orthogonalization, the relative effectiveness of available implementations remains uncharacterized. This study evaluates four abliteration tools (Heretic, DECCP, ErisForge, FailSpy) across sixteen instruction-tuned models (7B-14B parameters), reporting tool compatibility on all 16 models and quantitative metrics on subsets dictated by tool support. Single-pass methods demonstrated superior capability preservation on the benchmarked subset (avg GSM8K change across three models: ErisForge -0.28 pp; DECCP -0.13 pp), while Bayesian-optimized abliteration produced variable distribution shift (KL divergence: 0.043-1.646) with model-dependent capability impact. These findings provide researchers with evidence-based selection criteria for abliteration tool deployment across diverse model architectures. The principal finding indicates that mathematical reasoning capabilities exhibit the highest sensitivity to abliteration interventions, with GSM8K change ranging from +1.51 pp to -18.81 pp (-26.5% relative) depending on tool selection and model architecture.