ChatPaper.aiChatPaper

Индекс качества согласованности (AQI): За пределами отказов: AQI как внутренний диагностический инструмент согласованности через скрытую геометрию, расхождение кластеров и послойные объединенные представления

Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations

June 16, 2025
Авторы: Abhilekh Borah, Chhavi Sharma, Danush Khanna, Utkarsh Bhatt, Gurpreet Singh, Hasnat Md Abdullah, Raghav Kaushik Ravi, Vinija Jain, Jyoti Patel, Shubham Singh, Vasu Sharma, Arpita Vats, Rahul Raja, Aman Chadha, Amitava Das
cs.AI

Аннотация

Согласование больше не является роскошью, это необходимость. По мере того как крупные языковые модели (LLM) проникают в высокорисковые области, такие как образование, здравоохранение, управление и право, их поведение должно надежно отражать человеко-ориентированные ценности и ограничения безопасности. Однако текущие оценки в значительной степени полагаются на поведенческие прокси, такие как показатели отказа, оценки G-Eval и классификаторы токсичности, все из которых имеют критические пробелы. Согласованные модели часто уязвимы для взлома, стохастичности генерации и имитации согласованности. Для решения этой проблемы мы представляем Индекс Качества Согласованности (AQI). Этот новый геометрический и инвариантный к промптам метрический показатель эмпирически оценивает согласованность LLM, анализируя разделение безопасных и небезопасных активаций в латентном пространстве. Комбинируя такие меры, как оценка Дэвиса-Боулдина (DBS), индекс Данна (DI), индекс Се-Бени (XBI) и индекс Калински-Харабаша (CHI) в различных формулировках, AQI фиксирует качество кластеризации для выявления скрытых рассогласований и рисков взлома, даже когда выходные данные кажутся соответствующими. AQI также служит ранним предупреждающим сигналом для имитации согласованности, предлагая надежный, инвариантный к декодированию инструмент для аудита безопасности, независимого от поведения. Кроме того, мы предлагаем набор данных LITMUS для облегчения надежной оценки в этих сложных условиях. Эмпирические тесты на LITMUS для различных моделей, обученных в условиях DPO, GRPO и RLHF, демонстрируют корреляцию AQI с внешними оценками и способность выявлять уязвимости, пропущенные метриками отказа. Мы делаем нашу реализацию общедоступной для стимулирования будущих исследований в этой области.
English
Alignment is no longer a luxury, it is a necessity. As large language models (LLMs) enter high-stakes domains like education, healthcare, governance, and law, their behavior must reliably reflect human-aligned values and safety constraints. Yet current evaluations rely heavily on behavioral proxies such as refusal rates, G-Eval scores, and toxicity classifiers, all of which have critical blind spots. Aligned models are often vulnerable to jailbreaking, stochasticity of generation, and alignment faking. To address this issue, we introduce the Alignment Quality Index (AQI). This novel geometric and prompt-invariant metric empirically assesses LLM alignment by analyzing the separation of safe and unsafe activations in latent space. By combining measures such as the Davies-Bouldin Score (DBS), Dunn Index (DI), Xie-Beni Index (XBI), and Calinski-Harabasz Index (CHI) across various formulations, AQI captures clustering quality to detect hidden misalignments and jailbreak risks, even when outputs appear compliant. AQI also serves as an early warning signal for alignment faking, offering a robust, decoding invariant tool for behavior agnostic safety auditing. Additionally, we propose the LITMUS dataset to facilitate robust evaluation under these challenging conditions. Empirical tests on LITMUS across different models trained under DPO, GRPO, and RLHF conditions demonstrate AQI's correlation with external judges and ability to reveal vulnerabilities missed by refusal metrics. We make our implementation publicly available to foster future research in this area.
PDF32June 18, 2025