Indice de Qualité d'Alignement (AQI) : Au-delà des Refus : L'AQI comme Diagnostic Intrinsèque d'Alignement via la Géométrie Latente, la Divergence des Clusters et les Représentations Agrégees par Couche
Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations
June 16, 2025
Auteurs: Abhilekh Borah, Chhavi Sharma, Danush Khanna, Utkarsh Bhatt, Gurpreet Singh, Hasnat Md Abdullah, Raghav Kaushik Ravi, Vinija Jain, Jyoti Patel, Shubham Singh, Vasu Sharma, Arpita Vats, Rahul Raja, Aman Chadha, Amitava Das
cs.AI
Résumé
L'alignement n'est plus un luxe, c'est une nécessité. Alors que les grands modèles de langage (LLM) pénètrent des domaines à enjeux élevés tels que l'éducation, la santé, la gouvernance et le droit, leur comportement doit refléter de manière fiable des valeurs alignées sur l'humain et des contraintes de sécurité. Pourtant, les évaluations actuelles reposent largement sur des indicateurs comportementaux tels que les taux de refus, les scores G-Eval et les classificateurs de toxicité, qui présentent tous des angles morts critiques. Les modèles alignés sont souvent vulnérables au jailbreaking, à la stochasticité de la génération et à la simulation d'alignement.
Pour résoudre ce problème, nous introduisons l'Indice de Qualité d'Alignement (AQI). Cette nouvelle métrique géométrique et invariante aux prompts évalue empiriquement l'alignement des LLM en analysant la séparation des activations sûres et non sûres dans l'espace latent. En combinant des mesures telles que le score de Davies-Bouldin (DBS), l'indice de Dunn (DI), l'indice de Xie-Beni (XBI) et l'indice de Calinski-Harabasz (CHI) à travers diverses formulations, l'AQI capture la qualité du clustering pour détecter les désalignements cachés et les risques de jailbreaking, même lorsque les sorties semblent conformes. L'AQI sert également de signal d'alerte précoce pour la simulation d'alignement, offrant un outil robuste et invariant au décodage pour l'audit de sécurité indépendant du comportement.
Par ailleurs, nous proposons le jeu de données LITMUS pour faciliter une évaluation robuste dans ces conditions difficiles. Des tests empiriques sur LITMUS avec différents modèles entraînés sous des conditions DPO, GRPO et RLHF démontrent la corrélation de l'AQI avec les juges externes et sa capacité à révéler des vulnérabilités ignorées par les métriques de refus. Nous rendons notre implémentation publique pour encourager les recherches futures dans ce domaine.
English
Alignment is no longer a luxury, it is a necessity. As large language models
(LLMs) enter high-stakes domains like education, healthcare, governance, and
law, their behavior must reliably reflect human-aligned values and safety
constraints. Yet current evaluations rely heavily on behavioral proxies such as
refusal rates, G-Eval scores, and toxicity classifiers, all of which have
critical blind spots. Aligned models are often vulnerable to jailbreaking,
stochasticity of generation, and alignment faking.
To address this issue, we introduce the Alignment Quality Index (AQI). This
novel geometric and prompt-invariant metric empirically assesses LLM alignment
by analyzing the separation of safe and unsafe activations in latent space. By
combining measures such as the Davies-Bouldin Score (DBS), Dunn Index (DI),
Xie-Beni Index (XBI), and Calinski-Harabasz Index (CHI) across various
formulations, AQI captures clustering quality to detect hidden misalignments
and jailbreak risks, even when outputs appear compliant. AQI also serves as an
early warning signal for alignment faking, offering a robust, decoding
invariant tool for behavior agnostic safety auditing.
Additionally, we propose the LITMUS dataset to facilitate robust evaluation
under these challenging conditions. Empirical tests on LITMUS across different
models trained under DPO, GRPO, and RLHF conditions demonstrate AQI's
correlation with external judges and ability to reveal vulnerabilities missed
by refusal metrics. We make our implementation publicly available to foster
future research in this area.