ChatPaper.aiChatPaper

COMPASS: 大規模言語モデルの組織固有ポリシー適合性評価フレームワーク

COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

January 5, 2026
著者: Dasol Choi, DongGeon Lee, Brigitta Jesica Kartono, Helena Berndt, Taeyoun Kwon, Joonwon Jang, Haon Park, Hwanjo Yu, Minsuk Kahng
cs.AI

要旨

大規模言語モデルが医療から金融に至るまで、企業の重要なアプリケーションに導入される中、組織固有のポリシーへの準拠を確保することが不可欠となっている。しかし、既存の安全性評価は普遍的な危害の防止にのみ焦点を当てている。本論文では、COMPASS(Company/Organization Policy Alignment Assessment)を提案する。これは、LLMが組織の許可リストおよび拒否リストポリシーを遵守するかどうかを評価する初の体系的フレームワークである。COMPASSを8つの多様な産業シナリオに適用し、戦略的に設計されたエッジケースを通じて、日常的な準拠と敵対的ロバスト性の両方をテストする5,920のクエリを生成・検証した。7つの最先端モデルを評価した結果、根本的な非対称性が明らかになった:モデルは正当なリクエストを確実に処理する(精度>95%)が、禁止事項の執行では壊滅的に失敗し、敵対的な拒否リスト違反をわずか13〜40%しか拒否しない。これらの結果は、現在のLLMがポリシー重視の導入に必要なロバスト性を欠いていることを示しており、COMPASSが組織的AI安全性のための必須の評価フレームワークであることを確立する。
English
As large language models are deployed in high-stakes enterprise applications, from healthcare to finance, ensuring adherence to organization-specific policies has become essential. Yet existing safety evaluations focus exclusively on universal harms. We present COMPASS (Company/Organization Policy Alignment Assessment), the first systematic framework for evaluating whether LLMs comply with organizational allowlist and denylist policies. We apply COMPASS to eight diverse industry scenarios, generating and validating 5,920 queries that test both routine compliance and adversarial robustness through strategically designed edge cases. Evaluating seven state-of-the-art models, we uncover a fundamental asymmetry: models reliably handle legitimate requests (>95% accuracy) but catastrophically fail at enforcing prohibitions, refusing only 13-40% of adversarial denylist violations. These results demonstrate that current LLMs lack the robustness required for policy-critical deployments, establishing COMPASS as an essential evaluation framework for organizational AI safety.
PDF41January 7, 2026