COMPASS: Un Framework per la Valutazione dell'Allineamento delle Politiche Aziendali Specifiche nei Modelli Linguistici di Grandi Dimensioni

Abstract

Con l'implementazione di grandi modelli linguistici in applicazioni aziendali ad alto rischio, dalla sanità alla finanza, garantire l'adesione a politiche specifiche dell'organizzazione è diventato essenziale. Tuttavia, le valutazioni di sicurezza esistenti si concentrano esclusivamente su danni universali. Presentiamo COMPASS (Company/Organization Policy Alignment Assessment), il primo quadro sistematico per valutare se gli LLM rispettano le politiche aziendali/organizzative di allowlist e denylist. Applichiamo COMPASS a otto scenari industriali diversificati, generando e convalidando 5.920 query che testano sia la conformità routinaria che la robustezza adversarial attraverso casi limite strategicamente progettati. Valutando sette modelli all'avanguardia, riveliamo un'asimmetria fondamentale: i modelli gestiscono in modo affidabile le richieste legittime (>95% di accuratezza) ma falliscono catastroficamente nell'applicare i divieti, rifiutando solo il 13-40% delle violazioni adversarial della denylist. Questi risultati dimostrano che gli LLM attuali mancano della robustezza richiesta per implementazioni critiche per le politiche, stabilendo COMPASS come quadro di valutazione essenziale per la sicurezza dell'IA organizzativa.

English

As large language models are deployed in high-stakes enterprise applications, from healthcare to finance, ensuring adherence to organization-specific policies has become essential. Yet existing safety evaluations focus exclusively on universal harms. We present COMPASS (Company/Organization Policy Alignment Assessment), the first systematic framework for evaluating whether LLMs comply with organizational allowlist and denylist policies. We apply COMPASS to eight diverse industry scenarios, generating and validating 5,920 queries that test both routine compliance and adversarial robustness through strategically designed edge cases. Evaluating seven state-of-the-art models, we uncover a fundamental asymmetry: models reliably handle legitimate requests (>95% accuracy) but catastrophically fail at enforcing prohibitions, refusing only 13-40% of adversarial denylist violations. These results demonstrate that current LLMs lack the robustness required for policy-critical deployments, establishing COMPASS as an essential evaluation framework for organizational AI safety.

COMPASS: Un Framework per la Valutazione dell'Allineamento delle Politiche Aziendali Specifiche nei Modelli Linguistici di Grandi Dimensioni

COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

Abstract

Support