ChatPaper.aiChatPaper

Indice di Qualità dell'Allineamento (AQI): Oltre i Rifiuti: AQI come Diagnostica Intrinseca dell'Allineamento attraverso la Geometria Latente, la Divergenza dei Cluster e le Rappresentazioni Aggregate per Strato

Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations

June 16, 2025
Autori: Abhilekh Borah, Chhavi Sharma, Danush Khanna, Utkarsh Bhatt, Gurpreet Singh, Hasnat Md Abdullah, Raghav Kaushik Ravi, Vinija Jain, Jyoti Patel, Shubham Singh, Vasu Sharma, Arpita Vats, Rahul Raja, Aman Chadha, Amitava Das
cs.AI

Abstract

L'allineamento non è più un lusso, ma una necessità. Man mano che i grandi modelli linguistici (LLM) entrano in domini ad alto rischio come l'istruzione, la sanità, la governance e il diritto, il loro comportamento deve riflettere in modo affidabile valori allineati con l'uomo e vincoli di sicurezza. Tuttavia, le valutazioni attuali si basano fortemente su proxy comportamentali come i tassi di rifiuto, i punteggi G-Eval e i classificatori di tossicità, tutti con punti ciechi critici. I modelli allineati sono spesso vulnerabili a jailbreaking, alla stocasticità della generazione e alla simulazione di allineamento. Per affrontare questo problema, introduciamo l'Indice di Qualità di Allineamento (AQI). Questa nuova metrica geometrica e invariante rispetto ai prompt valuta empiricamente l'allineamento dei LLM analizzando la separazione delle attivazioni sicure e non sicure nello spazio latente. Combinando misure come il Davies-Bouldin Score (DBS), l'Indice di Dunn (DI), l'Indice di Xie-Beni (XBI) e l'Indice di Calinski-Harabasz (CHI) in varie formulazioni, l'AQI cattura la qualità del clustering per rilevare disallineamenti nascosti e rischi di jailbreak, anche quando gli output appaiono conformi. L'AQI funge anche da segnale di allarme precoce per la simulazione di allineamento, offrendo uno strumento robusto e invariante rispetto al decoding per audit di sicurezza agnostici al comportamento. Inoltre, proponiamo il dataset LITMUS per facilitare una valutazione robusta in queste condizioni impegnative. Test empirici su LITMUS su diversi modelli addestrati con DPO, GRPO e RLHF dimostrano la correlazione dell'AQI con giudici esterni e la sua capacità di rivelare vulnerabilità trascurate dalle metriche di rifiuto. Rendiamo pubblicamente disponibile la nostra implementazione per favorire future ricerche in questo ambito.
English
Alignment is no longer a luxury, it is a necessity. As large language models (LLMs) enter high-stakes domains like education, healthcare, governance, and law, their behavior must reliably reflect human-aligned values and safety constraints. Yet current evaluations rely heavily on behavioral proxies such as refusal rates, G-Eval scores, and toxicity classifiers, all of which have critical blind spots. Aligned models are often vulnerable to jailbreaking, stochasticity of generation, and alignment faking. To address this issue, we introduce the Alignment Quality Index (AQI). This novel geometric and prompt-invariant metric empirically assesses LLM alignment by analyzing the separation of safe and unsafe activations in latent space. By combining measures such as the Davies-Bouldin Score (DBS), Dunn Index (DI), Xie-Beni Index (XBI), and Calinski-Harabasz Index (CHI) across various formulations, AQI captures clustering quality to detect hidden misalignments and jailbreak risks, even when outputs appear compliant. AQI also serves as an early warning signal for alignment faking, offering a robust, decoding invariant tool for behavior agnostic safety auditing. Additionally, we propose the LITMUS dataset to facilitate robust evaluation under these challenging conditions. Empirical tests on LITMUS across different models trained under DPO, GRPO, and RLHF conditions demonstrate AQI's correlation with external judges and ability to reveal vulnerabilities missed by refusal metrics. We make our implementation publicly available to foster future research in this area.
PDF32June 18, 2025