Alignment Quality Index (AQI): Über Ablehnungen hinaus: AQI als intrinsisches Alignment-Diagnosewerkzeug durch latente Geometrie, Cluster-Divergenz und schichtenweise gepoolte Repräsentationen

papers.abstract

Alignment ist kein Luxus mehr, sondern eine Notwendigkeit. Da große Sprachmodelle (LLMs) in hochriskante Bereiche wie Bildung, Gesundheitswesen, Regierungsführung und Recht vordringen, muss ihr Verhalten zuverlässig menschlich ausgerichtete Werte und Sicherheitsanforderungen widerspiegeln. Dennoch stützen sich aktuelle Bewertungen stark auf Verhaltensindikatoren wie Ablehnungsraten, G-Eval-Scores und Toxizitätsklassifikatoren, die alle kritische Schwachstellen aufweisen. Ausgerichtete Modelle sind oft anfällig für Jailbreaking, die Stochastizität der Generierung und Alignment-Fälschungen. Um dieses Problem zu lösen, führen wir den Alignment Quality Index (AQI) ein. Diese neuartige, geometrische und prompt-invariante Metrik bewertet die Ausrichtung von LLMs empirisch, indem sie die Trennung sicherer und unsicherer Aktivierungen im latenten Raum analysiert. Durch die Kombination von Maßen wie dem Davies-Bouldin-Score (DBS), dem Dunn-Index (DI), dem Xie-Beni-Index (XBI) und dem Calinski-Harabasz-Index (CHI) in verschiedenen Formulierungen erfasst der AQI die Clusterqualität, um versteckte Fehlausrichtungen und Jailbreak-Risiken zu erkennen, selbst wenn die Ausgaben konform erscheinen. Der AQI dient auch als Frühwarnsignal für Alignment-Fälschungen und bietet ein robustes, dekodierungsinvariantes Werkzeug für verhaltensunabhängige Sicherheitsprüfungen. Zusätzlich schlagen wir den LITMUS-Datensatz vor, um eine robuste Bewertung unter diesen herausfordernden Bedingungen zu ermöglichen. Empirische Tests mit LITMUS an verschiedenen Modellen, die unter DPO-, GRPO- und RLHF-Bedingungen trainiert wurden, zeigen die Korrelation des AQI mit externen Bewertungen und seine Fähigkeit, Schwachstellen aufzudecken, die von Ablehnungsmetriken übersehen werden. Wir stellen unsere Implementierung öffentlich zur Verfügung, um zukünftige Forschung in diesem Bereich zu fördern.

English

Alignment is no longer a luxury, it is a necessity. As large language models (LLMs) enter high-stakes domains like education, healthcare, governance, and law, their behavior must reliably reflect human-aligned values and safety constraints. Yet current evaluations rely heavily on behavioral proxies such as refusal rates, G-Eval scores, and toxicity classifiers, all of which have critical blind spots. Aligned models are often vulnerable to jailbreaking, stochasticity of generation, and alignment faking. To address this issue, we introduce the Alignment Quality Index (AQI). This novel geometric and prompt-invariant metric empirically assesses LLM alignment by analyzing the separation of safe and unsafe activations in latent space. By combining measures such as the Davies-Bouldin Score (DBS), Dunn Index (DI), Xie-Beni Index (XBI), and Calinski-Harabasz Index (CHI) across various formulations, AQI captures clustering quality to detect hidden misalignments and jailbreak risks, even when outputs appear compliant. AQI also serves as an early warning signal for alignment faking, offering a robust, decoding invariant tool for behavior agnostic safety auditing. Additionally, we propose the LITMUS dataset to facilitate robust evaluation under these challenging conditions. Empirical tests on LITMUS across different models trained under DPO, GRPO, and RLHF conditions demonstrate AQI's correlation with external judges and ability to reveal vulnerabilities missed by refusal metrics. We make our implementation publicly available to foster future research in this area.

Alignment Quality Index (AQI): Über Ablehnungen hinaus: AQI als intrinsisches Alignment-Diagnosewerkzeug durch latente Geometrie, Cluster-Divergenz und schichtenweise gepoolte Repräsentationen

Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations

papers.abstract

Support