Alignment Quality Index (AQI): Voorbij Weigeringen: AQI als een Intrinsieke Alignment Diagnostiek via Latente Geometrie, Cluster Divergentie, en Laaggewijs Samengevoegde Representaties
Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations
June 16, 2025
Auteurs: Abhilekh Borah, Chhavi Sharma, Danush Khanna, Utkarsh Bhatt, Gurpreet Singh, Hasnat Md Abdullah, Raghav Kaushik Ravi, Vinija Jain, Jyoti Patel, Shubham Singh, Vasu Sharma, Arpita Vats, Rahul Raja, Aman Chadha, Amitava Das
cs.AI
Samenvatting
Alignment is geen luxe meer, het is een noodzaak. Naarmate grote taalmodellen (LLM's) worden ingezet in domeinen met grote gevolgen, zoals onderwijs, gezondheidszorg, bestuur en recht, moet hun gedrag betrouwbaar menselijke waarden en veiligheidsbeperkingen weerspiegelen. Toch vertrouwen huidige evaluaties sterk op gedragsproxies zoals weigeringspercentages, G-Eval-scores en toxiciteitsclassificaties, die allemaal kritieke blinde vlekken hebben. Uitgelijnde modellen zijn vaak kwetsbaar voor jailbreaking, stochastische generatie en alignment-nepgedrag.
Om dit probleem aan te pakken, introduceren we de Alignment Quality Index (AQI). Deze nieuwe, geometrische en prompt-invariante metriek beoordeelt de alignment van LLM's empirisch door de scheiding van veilige en onveilige activaties in de latente ruimte te analyseren. Door metingen zoals de Davies-Bouldin Score (DBS), Dunn Index (DI), Xie-Beni Index (XBI) en Calinski-Harabasz Index (CHI) te combineren in verschillende formuleringen, vangt AQI de kwaliteit van clustering om verborgen misalignments en jailbreak-risico's te detecteren, zelfs wanneer uitvoeringsgedrag conform lijkt. AQI dient ook als een vroegtijdig waarschuwingssignaal voor alignment-nepgedrag en biedt een robuust, decodeer-invariant hulpmiddel voor gedragsagnostische veiligheidsaudits.
Daarnaast stellen we de LITMUS-dataset voor om robuuste evaluatie onder deze uitdagende omstandigheden te vergemakkelijken. Empirische tests op LITMUS over verschillende modellen die zijn getraind onder DPO-, GRPO- en RLHF-omstandigheden, tonen de correlatie van AQI met externe beoordelaars en het vermogen om kwetsbaarheden te onthullen die gemist worden door weigeringsmetrieken. We maken onze implementatie publiekelijk beschikbaar om toekomstig onderzoek op dit gebied te stimuleren.
English
Alignment is no longer a luxury, it is a necessity. As large language models
(LLMs) enter high-stakes domains like education, healthcare, governance, and
law, their behavior must reliably reflect human-aligned values and safety
constraints. Yet current evaluations rely heavily on behavioral proxies such as
refusal rates, G-Eval scores, and toxicity classifiers, all of which have
critical blind spots. Aligned models are often vulnerable to jailbreaking,
stochasticity of generation, and alignment faking.
To address this issue, we introduce the Alignment Quality Index (AQI). This
novel geometric and prompt-invariant metric empirically assesses LLM alignment
by analyzing the separation of safe and unsafe activations in latent space. By
combining measures such as the Davies-Bouldin Score (DBS), Dunn Index (DI),
Xie-Beni Index (XBI), and Calinski-Harabasz Index (CHI) across various
formulations, AQI captures clustering quality to detect hidden misalignments
and jailbreak risks, even when outputs appear compliant. AQI also serves as an
early warning signal for alignment faking, offering a robust, decoding
invariant tool for behavior agnostic safety auditing.
Additionally, we propose the LITMUS dataset to facilitate robust evaluation
under these challenging conditions. Empirical tests on LITMUS across different
models trained under DPO, GRPO, and RLHF conditions demonstrate AQI's
correlation with external judges and ability to reveal vulnerabilities missed
by refusal metrics. We make our implementation publicly available to foster
future research in this area.