Índice de Qualidade de Alinhamento (AQI): Além das Recusas: O AQI como um Diagnóstico Intrínseco de Alinhamento por meio de Geometria Latente, Divergência de Agrupamentos e Representações Agregadas por Camadas
Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations
June 16, 2025
Autores: Abhilekh Borah, Chhavi Sharma, Danush Khanna, Utkarsh Bhatt, Gurpreet Singh, Hasnat Md Abdullah, Raghav Kaushik Ravi, Vinija Jain, Jyoti Patel, Shubham Singh, Vasu Sharma, Arpita Vats, Rahul Raja, Aman Chadha, Amitava Das
cs.AI
Resumo
O alinhamento deixou de ser um luxo, tornou-se uma necessidade. À medida que os grandes modelos de linguagem (LLMs) entram em domínios de alto impacto como educação, saúde, governança e direito, seu comportamento deve refletir de forma confiável valores alinhados com os humanos e restrições de segurança. No entanto, as avaliações atuais dependem fortemente de proxies comportamentais, como taxas de recusa, pontuações G-Eval e classificadores de toxicidade, todos os quais têm pontos cegos críticos. Modelos alinhados são frequentemente vulneráveis a jailbreaking, estocasticidade de geração e falsificação de alinhamento.
Para abordar essa questão, introduzimos o Índice de Qualidade de Alinhamento (AQI). Essa nova métrica geométrica e invariante a prompts avalia empiricamente o alinhamento de LLMs analisando a separação de ativações seguras e inseguras no espaço latente. Ao combinar medidas como o Índice Davies-Bouldin (DBS), Índice Dunn (DI), Índice Xie-Beni (XBI) e Índice Calinski-Harabasz (CHI) em várias formulações, o AQI captura a qualidade de agrupamento para detectar desalinhamentos ocultos e riscos de jailbreak, mesmo quando as saídas parecem conformes. O AQI também serve como um sinal de alerta precoce para falsificação de alinhamento, oferecendo uma ferramenta robusta e invariante à decodificação para auditorias de segurança agnósticas ao comportamento.
Além disso, propomos o conjunto de dados LITMUS para facilitar avaliações robustas nessas condições desafiadoras. Testes empíricos no LITMUS em diferentes modelos treinados sob condições de DPO, GRPO e RLHF demonstram a correlação do AQI com juízes externos e sua capacidade de revelar vulnerabilidades não detectadas por métricas de recusa. Disponibilizamos nossa implementação publicamente para fomentar pesquisas futuras nessa área.
English
Alignment is no longer a luxury, it is a necessity. As large language models
(LLMs) enter high-stakes domains like education, healthcare, governance, and
law, their behavior must reliably reflect human-aligned values and safety
constraints. Yet current evaluations rely heavily on behavioral proxies such as
refusal rates, G-Eval scores, and toxicity classifiers, all of which have
critical blind spots. Aligned models are often vulnerable to jailbreaking,
stochasticity of generation, and alignment faking.
To address this issue, we introduce the Alignment Quality Index (AQI). This
novel geometric and prompt-invariant metric empirically assesses LLM alignment
by analyzing the separation of safe and unsafe activations in latent space. By
combining measures such as the Davies-Bouldin Score (DBS), Dunn Index (DI),
Xie-Beni Index (XBI), and Calinski-Harabasz Index (CHI) across various
formulations, AQI captures clustering quality to detect hidden misalignments
and jailbreak risks, even when outputs appear compliant. AQI also serves as an
early warning signal for alignment faking, offering a robust, decoding
invariant tool for behavior agnostic safety auditing.
Additionally, we propose the LITMUS dataset to facilitate robust evaluation
under these challenging conditions. Empirical tests on LITMUS across different
models trained under DPO, GRPO, and RLHF conditions demonstrate AQI's
correlation with external judges and ability to reveal vulnerabilities missed
by refusal metrics. We make our implementation publicly available to foster
future research in this area.