Alignment Quality Index (AQI): Voorbij Weigeringen: AQI als een Intrinsieke Alignment Diagnostiek via Latente Geometrie, Cluster Divergentie, en Laaggewijs Samengevoegde Representaties

Samenvatting

Alignment is geen luxe meer, het is een noodzaak. Naarmate grote taalmodellen (LLM's) worden ingezet in domeinen met grote gevolgen, zoals onderwijs, gezondheidszorg, bestuur en recht, moet hun gedrag betrouwbaar menselijke waarden en veiligheidsbeperkingen weerspiegelen. Toch vertrouwen huidige evaluaties sterk op gedragsproxies zoals weigeringspercentages, G-Eval-scores en toxiciteitsclassificaties, die allemaal kritieke blinde vlekken hebben. Uitgelijnde modellen zijn vaak kwetsbaar voor jailbreaking, stochastische generatie en alignment-nepgedrag. Om dit probleem aan te pakken, introduceren we de Alignment Quality Index (AQI). Deze nieuwe, geometrische en prompt-invariante metriek beoordeelt de alignment van LLM's empirisch door de scheiding van veilige en onveilige activaties in de latente ruimte te analyseren. Door metingen zoals de Davies-Bouldin Score (DBS), Dunn Index (DI), Xie-Beni Index (XBI) en Calinski-Harabasz Index (CHI) te combineren in verschillende formuleringen, vangt AQI de kwaliteit van clustering om verborgen misalignments en jailbreak-risico's te detecteren, zelfs wanneer uitvoeringsgedrag conform lijkt. AQI dient ook als een vroegtijdig waarschuwingssignaal voor alignment-nepgedrag en biedt een robuust, decodeer-invariant hulpmiddel voor gedragsagnostische veiligheidsaudits. Daarnaast stellen we de LITMUS-dataset voor om robuuste evaluatie onder deze uitdagende omstandigheden te vergemakkelijken. Empirische tests op LITMUS over verschillende modellen die zijn getraind onder DPO-, GRPO- en RLHF-omstandigheden, tonen de correlatie van AQI met externe beoordelaars en het vermogen om kwetsbaarheden te onthullen die gemist worden door weigeringsmetrieken. We maken onze implementatie publiekelijk beschikbaar om toekomstig onderzoek op dit gebied te stimuleren.

English

Alignment is no longer a luxury, it is a necessity. As large language models (LLMs) enter high-stakes domains like education, healthcare, governance, and law, their behavior must reliably reflect human-aligned values and safety constraints. Yet current evaluations rely heavily on behavioral proxies such as refusal rates, G-Eval scores, and toxicity classifiers, all of which have critical blind spots. Aligned models are often vulnerable to jailbreaking, stochasticity of generation, and alignment faking. To address this issue, we introduce the Alignment Quality Index (AQI). This novel geometric and prompt-invariant metric empirically assesses LLM alignment by analyzing the separation of safe and unsafe activations in latent space. By combining measures such as the Davies-Bouldin Score (DBS), Dunn Index (DI), Xie-Beni Index (XBI), and Calinski-Harabasz Index (CHI) across various formulations, AQI captures clustering quality to detect hidden misalignments and jailbreak risks, even when outputs appear compliant. AQI also serves as an early warning signal for alignment faking, offering a robust, decoding invariant tool for behavior agnostic safety auditing. Additionally, we propose the LITMUS dataset to facilitate robust evaluation under these challenging conditions. Empirical tests on LITMUS across different models trained under DPO, GRPO, and RLHF conditions demonstrate AQI's correlation with external judges and ability to reveal vulnerabilities missed by refusal metrics. We make our implementation publicly available to foster future research in this area.

Alignment Quality Index (AQI): Voorbij Weigeringen: AQI als een Intrinsieke Alignment Diagnostiek via Latente Geometrie, Cluster Divergentie, en Laaggewijs Samengevoegde Representaties

Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations

Samenvatting

Support