Alignment Quality Index (AQI) : 거부 이상의 지표: 잠재 기하학, 클러스터 발산, 그리고 계층별 풀링된 표현을 통한 본질적 정렬 진단으로서의 AQI
Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations
June 16, 2025
저자: Abhilekh Borah, Chhavi Sharma, Danush Khanna, Utkarsh Bhatt, Gurpreet Singh, Hasnat Md Abdullah, Raghav Kaushik Ravi, Vinija Jain, Jyoti Patel, Shubham Singh, Vasu Sharma, Arpita Vats, Rahul Raja, Aman Chadha, Amitava Das
cs.AI
초록
정렬(Alignment)은 더 이상 사치가 아니라 필수적 요소가 되었습니다. 대규모 언어 모델(LLMs)이 교육, 의료, 거버넌스, 법률 등과 같은 고위험 영역에 진입함에 따라, 이들의 행동은 인간과 조율된 가치와 안전 제약을 신뢰성 있게 반영해야 합니다. 그러나 현재의 평가는 거부율, G-Eval 점수, 유해성 분류기와 같은 행동적 대리 지표에 크게 의존하고 있으며, 이들 모두는 중요한 맹점을 가지고 있습니다. 정렬된 모델들은 종종 탈옥(jailbreaking), 생성의 확률적 변동성, 그리고 정렬 위조(alignment faking)에 취약합니다.
이 문제를 해결하기 위해, 우리는 정렬 품질 지수(Alignment Quality Index, AQI)를 소개합니다. 이 새로운 기하학적이고 프롬프트 불변적인 지표는 잠재 공간에서 안전한 활성화와 안전하지 않은 활성화의 분리를 분석함으로써 LLM의 정렬을 실증적으로 평가합니다. Davies-Bouldin 점수(DBS), Dunn 지수(DI), Xie-Beni 지수(XBI), 그리고 Calinski-Harabasz 지수(CHI)와 같은 다양한 측정 지표를 조합함으로써, AQI는 클러스터링 품질을 포착하여 출력이 규정을 준수하는 것처럼 보이는 경우에도 숨겨진 정렬 오류와 탈옥 위험을 탐지합니다. AQI는 또한 정렬 위조에 대한 조기 경보 신호로 작용하며, 디코딩 불변적인 도구로서 행동에 구애받지 않는 안전 감사를 제공합니다.
추가적으로, 우리는 이러한 도전적인 조건 하에서 견고한 평가를 용이하게 하기 위해 LITMUS 데이터셋을 제안합니다. DPO, GRPO, RLHF 조건 하에서 훈련된 다양한 모델들에 대한 LITMUS의 실증적 테스트는 AQI가 외부 평가자와의 상관관계를 보여주고, 거부 지표가 놓친 취약점을 드러내는 능력을 입증합니다. 우리는 이 분야의 미래 연구를 촉진하기 위해 구현을 공개적으로 제공합니다.
English
Alignment is no longer a luxury, it is a necessity. As large language models
(LLMs) enter high-stakes domains like education, healthcare, governance, and
law, their behavior must reliably reflect human-aligned values and safety
constraints. Yet current evaluations rely heavily on behavioral proxies such as
refusal rates, G-Eval scores, and toxicity classifiers, all of which have
critical blind spots. Aligned models are often vulnerable to jailbreaking,
stochasticity of generation, and alignment faking.
To address this issue, we introduce the Alignment Quality Index (AQI). This
novel geometric and prompt-invariant metric empirically assesses LLM alignment
by analyzing the separation of safe and unsafe activations in latent space. By
combining measures such as the Davies-Bouldin Score (DBS), Dunn Index (DI),
Xie-Beni Index (XBI), and Calinski-Harabasz Index (CHI) across various
formulations, AQI captures clustering quality to detect hidden misalignments
and jailbreak risks, even when outputs appear compliant. AQI also serves as an
early warning signal for alignment faking, offering a robust, decoding
invariant tool for behavior agnostic safety auditing.
Additionally, we propose the LITMUS dataset to facilitate robust evaluation
under these challenging conditions. Empirical tests on LITMUS across different
models trained under DPO, GRPO, and RLHF conditions demonstrate AQI's
correlation with external judges and ability to reveal vulnerabilities missed
by refusal metrics. We make our implementation publicly available to foster
future research in this area.