ChatPaper.aiChatPaper

COMPASS: Een Raamwerk voor het Evalueren van Organisatiespecifiek Beleidsafstemming in LLM's

COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

January 5, 2026
Auteurs: Dasol Choi, DongGeon Lee, Brigitta Jesica Kartono, Helena Berndt, Taeyoun Kwon, Joonwon Jang, Haon Park, Hwanjo Yu, Minsuk Kahng
cs.AI

Samenvatting

Met de inzet van grote taalmodellen in kritieke bedrijfstoepassingen, van gezondheidszorg tot financiën, is het waarborgen van naleving van organisatiespecifiek beleid essentieel geworden. Toch richten bestaande veiligheidsevaluaties zich uitsluitend op universele risico's. Wij presenteren COMPASS (Company/Organization Policy Alignment Assessment), het eerste systematische kader voor het evalueren of LLM's voldoen aan organisatorische allowlist- en denylist-beleidsregels. We passen COMPASS toe op acht diverse industriescenario's, waarbij we 5.920 queries genereren en valideren die zowel routinematige naleving als adversariële robuustheid testen via strategisch ontworpen edge cases. Na evaluatie van zeven state-of-the-art modellen onthullen we een fundamentele asymmetrie: modellen verwerken legitieme verzoeken betrouwbaar (>95% nauwkeurigheid), maar falen catastrofaal bij het handhaven van verboden, waarbij slechts 13-40% van de adversariële denylist-overtredingen wordt geweigerd. Deze resultaten tonen aan dat huidige LLM's niet de vereiste robuustheid bezitten voor beleidskritieke implementaties, waarmee COMPASS zich vestigt als een essentieel evaluatiekader voor organisatorische AI-veiligheid.
English
As large language models are deployed in high-stakes enterprise applications, from healthcare to finance, ensuring adherence to organization-specific policies has become essential. Yet existing safety evaluations focus exclusively on universal harms. We present COMPASS (Company/Organization Policy Alignment Assessment), the first systematic framework for evaluating whether LLMs comply with organizational allowlist and denylist policies. We apply COMPASS to eight diverse industry scenarios, generating and validating 5,920 queries that test both routine compliance and adversarial robustness through strategically designed edge cases. Evaluating seven state-of-the-art models, we uncover a fundamental asymmetry: models reliably handle legitimate requests (>95% accuracy) but catastrophically fail at enforcing prohibitions, refusing only 13-40% of adversarial denylist violations. These results demonstrate that current LLMs lack the robustness required for policy-critical deployments, establishing COMPASS as an essential evaluation framework for organizational AI safety.
PDF41January 7, 2026