ChatPaper.aiChatPaper

Índice de Calidad de Alineación (AQI): Más allá de las negativas: AQI como un diagnóstico intrínseco de alineación mediante geometría latente, divergencia de clusters y representaciones agrupadas por capas

Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations

June 16, 2025
Autores: Abhilekh Borah, Chhavi Sharma, Danush Khanna, Utkarsh Bhatt, Gurpreet Singh, Hasnat Md Abdullah, Raghav Kaushik Ravi, Vinija Jain, Jyoti Patel, Shubham Singh, Vasu Sharma, Arpita Vats, Rahul Raja, Aman Chadha, Amitava Das
cs.AI

Resumen

La alineación ya no es un lujo, es una necesidad. A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ingresan en dominios de alto impacto como la educación, la salud, la gobernanza y el derecho, su comportamiento debe reflejar de manera confiable valores alineados con los humanos y restricciones de seguridad. Sin embargo, las evaluaciones actuales dependen en gran medida de proxies conductuales, como las tasas de rechazo, las puntuaciones G-Eval y los clasificadores de toxicidad, todos los cuales tienen puntos ciegos críticos. Los modelos alineados suelen ser vulnerables a jailbreaking, la estocasticidad de la generación y la falsificación de la alineación. Para abordar este problema, presentamos el Índice de Calidad de Alineación (AQI, por sus siglas en inglés). Esta métrica geométrica y invariante al prompt evalúa empíricamente la alineación de los LLMs al analizar la separación de activaciones seguras e inseguras en el espacio latente. Al combinar medidas como el Índice de Davies-Bouldin (DBS), el Índice de Dunn (DI), el Índice de Xie-Beni (XBI) y el Índice de Calinski-Harabasz (CHI) en diversas formulaciones, el AQI captura la calidad de agrupamiento para detectar desalineaciones ocultas y riesgos de jailbreaking, incluso cuando las salidas parecen cumplir con las expectativas. El AQI también sirve como una señal de alerta temprana para la falsificación de la alineación, ofreciendo una herramienta robusta e invariante a la decodificación para auditorías de seguridad independientes del comportamiento. Además, proponemos el conjunto de datos LITMUS para facilitar una evaluación robusta bajo estas condiciones desafiantes. Las pruebas empíricas en LITMUS con diferentes modelos entrenados bajo condiciones de DPO, GRPO y RLHF demuestran la correlación del AQI con evaluadores externos y su capacidad para revelar vulnerabilidades pasadas por alto por las métricas de rechazo. Hacemos nuestra implementación públicamente disponible para fomentar futuras investigaciones en esta área.
English
Alignment is no longer a luxury, it is a necessity. As large language models (LLMs) enter high-stakes domains like education, healthcare, governance, and law, their behavior must reliably reflect human-aligned values and safety constraints. Yet current evaluations rely heavily on behavioral proxies such as refusal rates, G-Eval scores, and toxicity classifiers, all of which have critical blind spots. Aligned models are often vulnerable to jailbreaking, stochasticity of generation, and alignment faking. To address this issue, we introduce the Alignment Quality Index (AQI). This novel geometric and prompt-invariant metric empirically assesses LLM alignment by analyzing the separation of safe and unsafe activations in latent space. By combining measures such as the Davies-Bouldin Score (DBS), Dunn Index (DI), Xie-Beni Index (XBI), and Calinski-Harabasz Index (CHI) across various formulations, AQI captures clustering quality to detect hidden misalignments and jailbreak risks, even when outputs appear compliant. AQI also serves as an early warning signal for alignment faking, offering a robust, decoding invariant tool for behavior agnostic safety auditing. Additionally, we propose the LITMUS dataset to facilitate robust evaluation under these challenging conditions. Empirical tests on LITMUS across different models trained under DPO, GRPO, and RLHF conditions demonstrate AQI's correlation with external judges and ability to reveal vulnerabilities missed by refusal metrics. We make our implementation publicly available to foster future research in this area.
PDF32June 18, 2025