ChatPaper.aiChatPaper

Analyse comparative des méthodes d'ablation des LLM : évaluation inter-architecture

Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation

December 15, 2025
papers.authors: Richard J. Young
cs.AI

papers.abstract

Les mécanismes d'alignement de sécurité dans les grands modèles de langage empêchent les réponses aux requêtes nuisibles via un comportement de refus appris, mais ces mêmes mécanismes entravent les applications de recherche légitimes, incluant la modélisation cognitive, les tests adversariaux et l'analyse de sécurité. Bien que les techniques d'ablitération permettent une suppression chirurgicale des représentations de refus par orthogonalisation directionnelle, l'efficacité relative des implémentations disponibles reste non caractérisée. Cette étude évalue quatre outils d'ablitération (Heretic, DECCP, ErisForge, FailSpy) sur seize modèles fine-tunés par instruction (7B à 14B paramètres), rapportant la compatibilité des outils sur les 16 modèles et des métriques quantitatives sur des sous-ensembles dictés par la prise en charge des outils. Les méthodes à passage unique ont démontré une préservation supérieure des capacités sur le sous-ensemble évalué (changement moyen GSM8K sur trois modèles : ErisForge -0,28 pp ; DECCP -0,13 pp), tandis que l'ablitération optimisée par approche bayésienne a produit un décalage de distribution variable (divergence KL : 0,043-1,646) avec un impact sur les capacités dépendant du modèle. Ces résultats fournissent aux chercheurs des critères de sélection fondés sur des preuves pour le déploiement d'outils d'ablitération sur diverses architectures de modèles. La conclusion principale indique que les capacités de raisonnement mathématique présentent la sensibilité la plus élevée aux interventions d'ablitération, avec un changement GSM8K allant de +1,51 pp à -18,81 pp (-26,5 % en relatif) selon la sélection de l'outil et l'architecture du modèle.
English
Safety alignment mechanisms in large language models prevent responses to harmful queries through learned refusal behavior, yet these same mechanisms impede legitimate research applications including cognitive modeling, adversarial testing, and security analysis. While abliteration techniques enable surgical removal of refusal representations through directional orthogonalization, the relative effectiveness of available implementations remains uncharacterized. This study evaluates four abliteration tools (Heretic, DECCP, ErisForge, FailSpy) across sixteen instruction-tuned models (7B-14B parameters), reporting tool compatibility on all 16 models and quantitative metrics on subsets dictated by tool support. Single-pass methods demonstrated superior capability preservation on the benchmarked subset (avg GSM8K change across three models: ErisForge -0.28 pp; DECCP -0.13 pp), while Bayesian-optimized abliteration produced variable distribution shift (KL divergence: 0.043-1.646) with model-dependent capability impact. These findings provide researchers with evidence-based selection criteria for abliteration tool deployment across diverse model architectures. The principal finding indicates that mathematical reasoning capabilities exhibit the highest sensitivity to abliteration interventions, with GSM8K change ranging from +1.51 pp to -18.81 pp (-26.5% relative) depending on tool selection and model architecture.
PDF21December 18, 2025