Análise Comparativa de Métodos de Abliteração de LLM: Uma Avaliação Transarquitetural

Resumo

Os mecanismos de alinhamento de segurança em modelos de linguagem de grande porte previnem respostas a consultas prejudiciais por meio de um comportamento de recusa aprendido; no entanto, esses mesmos mecanismos impedem aplicações legítimas de pesquisa, incluindo modelagem cognitiva, testes adversariais e análise de segurança. Embora as técnicas de abliteração permitam a remoção cirúrgica das representações de recusa por meio de ortogonalização direcional, a eficácia relativa das implementações disponíveis permanece não caracterizada. Este estudo avalia quatro ferramentas de abliteração (Heretic, DECCP, ErisForge, FailSpy) em dezesseis modelos ajustados por instrução (7B-14B parâmetros), relatando a compatibilidade das ferramentas em todos os 16 modelos e métricas quantitativas em subconjuntos ditados pelo suporte da ferramenta. Os métodos de passagem única demonstraram preservação de capacidade superior no subconjunto benchmark (variação média no GSM8K em três modelos: ErisForge -0,28 pp; DECCP -0,13 pp), enquanto a abliteração otimizada por Bayes produziu deslocamento de distribuição variável (divergência KL: 0,043-1,646) com impacto de capacidade dependente do modelo. Essas descobertas fornecem aos pesquisadores critérios de seleção baseados em evidências para a implantação de ferramentas de abliteração em diversas arquiteturas de modelos. A principal descoberta indica que as capacidades de raciocínio matemático exibem a maior sensibilidade às intervenções de abliteração, com variação no GSM8K variando de +1,51 pp a -18,81 pp (-26,5% relativo) dependendo da seleção da ferramenta e da arquitetura do modelo.

English

Safety alignment mechanisms in large language models prevent responses to harmful queries through learned refusal behavior, yet these same mechanisms impede legitimate research applications including cognitive modeling, adversarial testing, and security analysis. While abliteration techniques enable surgical removal of refusal representations through directional orthogonalization, the relative effectiveness of available implementations remains uncharacterized. This study evaluates four abliteration tools (Heretic, DECCP, ErisForge, FailSpy) across sixteen instruction-tuned models (7B-14B parameters), reporting tool compatibility on all 16 models and quantitative metrics on subsets dictated by tool support. Single-pass methods demonstrated superior capability preservation on the benchmarked subset (avg GSM8K change across three models: ErisForge -0.28 pp; DECCP -0.13 pp), while Bayesian-optimized abliteration produced variable distribution shift (KL divergence: 0.043-1.646) with model-dependent capability impact. These findings provide researchers with evidence-based selection criteria for abliteration tool deployment across diverse model architectures. The principal finding indicates that mathematical reasoning capabilities exhibit the highest sensitivity to abliteration interventions, with GSM8K change ranging from +1.51 pp to -18.81 pp (-26.5% relative) depending on tool selection and model architecture.

Análise Comparativa de Métodos de Abliteração de LLM: Uma Avaliação Transarquitetural

Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation

Resumo

Support