ChatPaper.aiChatPaper

COMPASS: Ein Rahmenwerk zur Bewertung organisationsspezifischer Policy-Abgleichung in LLMs

COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

January 5, 2026
papers.authors: Dasol Choi, DongGeon Lee, Brigitta Jesica Kartono, Helena Berndt, Taeyoun Kwon, Joonwon Jang, Haon Park, Hwanjo Yu, Minsuk Kahng
cs.AI

papers.abstract

Mit dem Einsatz großer Sprachmodelle in unternehmenskritischen Anwendungen – von der Gesundheitsversorgung bis zur Finanzbranche – ist die Einhaltung organisationsspezifischer Richtlinien unerlässlich geworden. Bisher konzentrieren sich Sicherheitsevaluierungen jedoch ausschließlich auf universelle Schadensszenarien. Wir präsentieren COMPASS (Company/Organization Policy Alignment Assessment), den ersten systematischen Rahmen zur Bewertung, ob LLMs organisationale Allowlist- und Denylist-Richtlinien einhalten. Wir wenden COMPASS auf acht verschiedene Industrieszenarien an, generieren und validieren 5.920 Abfragen, die sowohl Routine-Compliance als auch adversarische Robustheit durch strategisch gestaltete Grenzfälle testen. Die Evaluierung sieben state-of-the-art-Modelle offenbart eine fundamentale Asymmetrie: Modelle verarbeiten legitime Anfragen zuverlässig (>95% Genauigkeit), versagen jedoch katastrophal bei der Durchsetzung von Verboten, indem sie nur 13–40% der adversarischen Denylist-Verstöße zurückweisen. Diese Ergebnisse zeigen, dass aktuelle LLMs nicht über die für richtlinienkritische Einsätze erforderliche Robustheit verfügen, und etablieren COMPASS als essenzielles Evaluierungsframework für organisationale KI-Sicherheit.
English
As large language models are deployed in high-stakes enterprise applications, from healthcare to finance, ensuring adherence to organization-specific policies has become essential. Yet existing safety evaluations focus exclusively on universal harms. We present COMPASS (Company/Organization Policy Alignment Assessment), the first systematic framework for evaluating whether LLMs comply with organizational allowlist and denylist policies. We apply COMPASS to eight diverse industry scenarios, generating and validating 5,920 queries that test both routine compliance and adversarial robustness through strategically designed edge cases. Evaluating seven state-of-the-art models, we uncover a fundamental asymmetry: models reliably handle legitimate requests (>95% accuracy) but catastrophically fail at enforcing prohibitions, refusing only 13-40% of adversarial denylist violations. These results demonstrate that current LLMs lack the robustness required for policy-critical deployments, establishing COMPASS as an essential evaluation framework for organizational AI safety.
PDF41January 7, 2026