ChatPaper.aiChatPaper

LLM 성능 저하 방법 비교 분석: 아키텍처 간 평가

Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation

December 15, 2025
저자: Richard J. Young
cs.AI

초록

대규모 언어 모델의 안전 조정 메커니즘은 학습된 거부 행동을 통해 유해 질의에 대한 응답을 방지하지만, 이러한 동일한 메커니즘은 인지 모델링, 적대적 테스트, 보안 분석을 포함한 합법적인 연구 응용을 저해합니다. 무효화 기술이 방향 직교화를 통해 거부 표현을 수술적으로 제거할 수 있음에도 불구하고, 기존 구현체들의 상대적 효과는 아직 규명되지 않았습니다. 본 연구는 4가지 무효화 도구(Heretic, DECCP, ErisForge, FailSpy)를 16개의 지시어 최적화 모델(7B-14B 매개변수)에 걸쳐 평가하며, 모든 16개 모델에 대한 도구 호환성과 도구 지원에 따라 결정된 하위 집단에 대한 정량적 지표를 보고합니다. 단일 패스 방법은 벤치마크된 하위 집단에서 우수한 능력 보존을 보였으며(세 모델 평균 GSM8K 변화: ErisForge -0.28pp; DECCP -0.13pp), 베이지안 최적화 무효화는 모델에 의존적인 능력 영향과 함께 다양한 분포 변화(KL 발산: 0.043-1.646)를 생성했습니다. 이러한 결과는 연구자들에게 다양한 모델 아키텍처에 걸친 무효화 도구 배포를 위한 근거 기반 선택 기준을 제공합니다. 주요 발견은 수학적 추론 능력이 무효화 중재에 가장 높은 민감도를 보이며, 도구 선택 및 모델 아키텍처에 따라 GSM8K 변화가 +1.51pp에서 -18.81pp(-26.5% 상대적)까지 범위를 가진다는 것을 나타냅니다.
English
Safety alignment mechanisms in large language models prevent responses to harmful queries through learned refusal behavior, yet these same mechanisms impede legitimate research applications including cognitive modeling, adversarial testing, and security analysis. While abliteration techniques enable surgical removal of refusal representations through directional orthogonalization, the relative effectiveness of available implementations remains uncharacterized. This study evaluates four abliteration tools (Heretic, DECCP, ErisForge, FailSpy) across sixteen instruction-tuned models (7B-14B parameters), reporting tool compatibility on all 16 models and quantitative metrics on subsets dictated by tool support. Single-pass methods demonstrated superior capability preservation on the benchmarked subset (avg GSM8K change across three models: ErisForge -0.28 pp; DECCP -0.13 pp), while Bayesian-optimized abliteration produced variable distribution shift (KL divergence: 0.043-1.646) with model-dependent capability impact. These findings provide researchers with evidence-based selection criteria for abliteration tool deployment across diverse model architectures. The principal finding indicates that mathematical reasoning capabilities exhibit the highest sensitivity to abliteration interventions, with GSM8K change ranging from +1.51 pp to -18.81 pp (-26.5% relative) depending on tool selection and model architecture.
PDF21December 18, 2025