Alignment Quality Index (AQI): Über Ablehnungen hinaus: AQI als intrinsisches Alignment-Diagnosewerkzeug durch latente Geometrie, Cluster-Divergenz und schichtenweise gepoolte Repräsentationen
Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations
June 16, 2025
Autoren: Abhilekh Borah, Chhavi Sharma, Danush Khanna, Utkarsh Bhatt, Gurpreet Singh, Hasnat Md Abdullah, Raghav Kaushik Ravi, Vinija Jain, Jyoti Patel, Shubham Singh, Vasu Sharma, Arpita Vats, Rahul Raja, Aman Chadha, Amitava Das
cs.AI
Zusammenfassung
Alignment ist kein Luxus mehr, sondern eine Notwendigkeit. Da große Sprachmodelle (LLMs) in hochriskante Bereiche wie Bildung, Gesundheitswesen, Regierungsführung und Recht vordringen, muss ihr Verhalten zuverlässig menschlich ausgerichtete Werte und Sicherheitsanforderungen widerspiegeln. Dennoch stützen sich aktuelle Bewertungen stark auf Verhaltensindikatoren wie Ablehnungsraten, G-Eval-Scores und Toxizitätsklassifikatoren, die alle kritische Schwachstellen aufweisen. Ausgerichtete Modelle sind oft anfällig für Jailbreaking, die Stochastizität der Generierung und Alignment-Fälschungen.
Um dieses Problem zu lösen, führen wir den Alignment Quality Index (AQI) ein. Diese neuartige, geometrische und prompt-invariante Metrik bewertet die Ausrichtung von LLMs empirisch, indem sie die Trennung sicherer und unsicherer Aktivierungen im latenten Raum analysiert. Durch die Kombination von Maßen wie dem Davies-Bouldin-Score (DBS), dem Dunn-Index (DI), dem Xie-Beni-Index (XBI) und dem Calinski-Harabasz-Index (CHI) in verschiedenen Formulierungen erfasst der AQI die Clusterqualität, um versteckte Fehlausrichtungen und Jailbreak-Risiken zu erkennen, selbst wenn die Ausgaben konform erscheinen. Der AQI dient auch als Frühwarnsignal für Alignment-Fälschungen und bietet ein robustes, dekodierungsinvariantes Werkzeug für verhaltensunabhängige Sicherheitsprüfungen.
Zusätzlich schlagen wir den LITMUS-Datensatz vor, um eine robuste Bewertung unter diesen herausfordernden Bedingungen zu ermöglichen. Empirische Tests mit LITMUS an verschiedenen Modellen, die unter DPO-, GRPO- und RLHF-Bedingungen trainiert wurden, zeigen die Korrelation des AQI mit externen Bewertungen und seine Fähigkeit, Schwachstellen aufzudecken, die von Ablehnungsmetriken übersehen werden. Wir stellen unsere Implementierung öffentlich zur Verfügung, um zukünftige Forschung in diesem Bereich zu fördern.
English
Alignment is no longer a luxury, it is a necessity. As large language models
(LLMs) enter high-stakes domains like education, healthcare, governance, and
law, their behavior must reliably reflect human-aligned values and safety
constraints. Yet current evaluations rely heavily on behavioral proxies such as
refusal rates, G-Eval scores, and toxicity classifiers, all of which have
critical blind spots. Aligned models are often vulnerable to jailbreaking,
stochasticity of generation, and alignment faking.
To address this issue, we introduce the Alignment Quality Index (AQI). This
novel geometric and prompt-invariant metric empirically assesses LLM alignment
by analyzing the separation of safe and unsafe activations in latent space. By
combining measures such as the Davies-Bouldin Score (DBS), Dunn Index (DI),
Xie-Beni Index (XBI), and Calinski-Harabasz Index (CHI) across various
formulations, AQI captures clustering quality to detect hidden misalignments
and jailbreak risks, even when outputs appear compliant. AQI also serves as an
early warning signal for alignment faking, offering a robust, decoding
invariant tool for behavior agnostic safety auditing.
Additionally, we propose the LITMUS dataset to facilitate robust evaluation
under these challenging conditions. Empirical tests on LITMUS across different
models trained under DPO, GRPO, and RLHF conditions demonstrate AQI's
correlation with external judges and ability to reveal vulnerabilities missed
by refusal metrics. We make our implementation publicly available to foster
future research in this area.