Análisis Comparativo de Métodos de Abliteración en Modelos de Lenguaje Grandes: Una Evaluación Transarquitectónica
Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation
December 15, 2025
Autores: Richard J. Young
cs.AI
Resumen
Los mecanismos de alineación de seguridad en los modelos de lenguaje a gran escala previenen respuestas a consultas nocivas mediante comportamientos de rechazo aprendidos; sin embargo, estos mismos mecanismos obstaculizan aplicaciones legítimas de investigación, como la modelización cognitiva, las pruebas adversarias y el análisis de seguridad. Si bien las técnicas de ablación permiten la eliminación quirúrgica de las representaciones de rechazo mediante ortogonalización direccional, la efectividad relativa de las implementaciones disponibles aún no ha sido caracterizada. Este estudio evalúa cuatro herramientas de ablación (Heretic, DECCP, ErisForge, FailSpy) en dieciséis modelos ajustados por instrucciones (7B-14B parámetros), reportando compatibilidad de herramientas en los 16 modelos y métricas cuantitativas en subconjuntos determinados por el soporte de las herramientas. Los métodos de paso único demostraron una preservación de capacidades superior en el subconjunto evaluado (cambio promedio en GSM8K en tres modelos: ErisForge -0.28 pp; DECCP -0.13 pp), mientras que la ablación optimizada bayesiana produjo un desplazamiento variable de distribución (divergencia KL: 0.043-1.646) con impacto en las capacidades dependiente del modelo. Estos hallazgos proporcionan a los investigadores criterios de selección basados en evidencia para el despliegue de herramientas de ablación en diversas arquitecturas de modelos. El hallazgo principal indica que las capacidades de razonamiento matemático exhiben la mayor sensibilidad a las intervenciones de ablación, con cambios en GSM8K que oscilan entre +1.51 pp y -18.81 pp (-26.5% relativo) dependiendo de la selección de herramientas y la arquitectura del modelo.
English
Safety alignment mechanisms in large language models prevent responses to harmful queries through learned refusal behavior, yet these same mechanisms impede legitimate research applications including cognitive modeling, adversarial testing, and security analysis. While abliteration techniques enable surgical removal of refusal representations through directional orthogonalization, the relative effectiveness of available implementations remains uncharacterized. This study evaluates four abliteration tools (Heretic, DECCP, ErisForge, FailSpy) across sixteen instruction-tuned models (7B-14B parameters), reporting tool compatibility on all 16 models and quantitative metrics on subsets dictated by tool support. Single-pass methods demonstrated superior capability preservation on the benchmarked subset (avg GSM8K change across three models: ErisForge -0.28 pp; DECCP -0.13 pp), while Bayesian-optimized abliteration produced variable distribution shift (KL divergence: 0.043-1.646) with model-dependent capability impact. These findings provide researchers with evidence-based selection criteria for abliteration tool deployment across diverse model architectures. The principal finding indicates that mathematical reasoning capabilities exhibit the highest sensitivity to abliteration interventions, with GSM8K change ranging from +1.51 pp to -18.81 pp (-26.5% relative) depending on tool selection and model architecture.