ChatPaper.aiChatPaper

COMPASS : Un cadre d'évaluation de l'alignement des politiques spécifiques aux organisations dans les LLM

COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

January 5, 2026
papers.authors: Dasol Choi, DongGeon Lee, Brigitta Jesica Kartono, Helena Berndt, Taeyoun Kwon, Joonwon Jang, Haon Park, Hwanjo Yu, Minsuk Kahng
cs.AI

papers.abstract

Alors que les modèles de langage de grande taille sont déployés dans des applications d'entreprise à haut risque, de la santé à la finance, garantir le respect des politiques spécifiques aux organisations est devenu essentiel. Pourtant, les évaluations de sécurité existantes se concentrent exclusivement sur les préjudices universels. Nous présentons COMPASS (Company/Organization Policy Alignment Assessment), le premier cadre systématique pour évaluer si les LLM se conforment aux politiques organisationnelles de listes d'autorisation et d'interdiction. Nous appliquons COMPASS à huit scénarios industriels variés, générant et validant 5 920 requêtes qui testent à la fois la conformité routinière et la robustesse antagoniste via des cas limites stratégiquement conçus. En évaluant sept modèles de pointe, nous mettons en lumière une asymétrie fondamentale : les modèles traitent de manière fiable les demandes légitimes (>95% de précision) mais échouent de façon catastrophique à faire respecter les interdictions, refusant seulement 13 à 40% des violations adverses des listes d'interdiction. Ces résultats démontrent que les LLM actuels manquent de la robustesse nécessaire pour les déploiements critiques en matière de politiques, établissant COMPASS comme un cadre d'évaluation essentiel pour la sécurité organisationnelle de l'IA.
English
As large language models are deployed in high-stakes enterprise applications, from healthcare to finance, ensuring adherence to organization-specific policies has become essential. Yet existing safety evaluations focus exclusively on universal harms. We present COMPASS (Company/Organization Policy Alignment Assessment), the first systematic framework for evaluating whether LLMs comply with organizational allowlist and denylist policies. We apply COMPASS to eight diverse industry scenarios, generating and validating 5,920 queries that test both routine compliance and adversarial robustness through strategically designed edge cases. Evaluating seven state-of-the-art models, we uncover a fundamental asymmetry: models reliably handle legitimate requests (>95% accuracy) but catastrophically fail at enforcing prohibitions, refusing only 13-40% of adversarial denylist violations. These results demonstrate that current LLMs lack the robustness required for policy-critical deployments, establishing COMPASS as an essential evaluation framework for organizational AI safety.
PDF41January 7, 2026